Giới thiệu chương
Sau khi đã hiểu vai trò của Ollama trong hệ sinh thái AI local, bước tiếp theo là triển khai Ollama trên máy chủ thật. Đây là giai đoạn chuyển từ nhận thức và thiết kế sang vận hành kỹ thuật. Đối với bệnh viện, việc cài đặt Ollama không chỉ là chạy một lệnh cài phần mềm, mà là chuẩn bị một nền tảng máy chủ đủ ổn định để phục vụ các ứng dụng AI nội bộ lâu dài.
Một hệ thống AI local trong bệnh viện cần được triển khai theo tư duy máy chủ. Điều này khác với việc cài thử AI trên máy tính cá nhân. Máy chủ bệnh viện cần có hệ điều hành ổn định, cấu hình mạng rõ ràng, driver GPU hoạt động đúng, thư mục lưu model hợp lý, quyền truy cập được kiểm soát, dịch vụ tự khởi động sau khi reboot và có phương án xử lý lỗi. Nếu ngay từ giai đoạn cài đặt đã làm tùy tiện, các bước sau như xây chatbot, tích hợp Drupal, xây RAG với FAISS hoặc mở rộng cho nhiều phòng ban sẽ gặp nhiều khó khăn.
Chương này tập trung vào quá trình cài đặt Ollama trên máy chủ bệnh viện, đặc biệt trong môi trường Ubuntu Server. Nội dung bao gồm chuẩn bị máy chủ AI local, kiểm tra CPU, RAM, GPU, VRAM và ổ cứng; cài đặt Ubuntu Server; cài đặt driver NVIDIA; cài CUDA khi cần; cài Ollama; kiểm tra dịch vụ; cấu hình Ollama chạy như service; cấu hình thư mục lưu model; cấu hình truy cập trong mạng LAN; và xử lý một số lỗi thường gặp.
Điểm quan trọng là bệnh viện không nên cài đặt theo kiểu “chạy được là xong”. Cài đặt đúng phải hướng đến vận hành ổn định, bảo mật và có khả năng mở rộng. Ví dụ, nếu để model nằm trong phân vùng hệ thống quá nhỏ, sau này tải vài model lớn có thể đầy ổ và làm dịch vụ lỗi. Nếu mở Ollama ra toàn mạng mà không có lớp kiểm soát, người dùng có thể gọi API trực tiếp không ghi log. Nếu cài driver GPU không ổn định, model có thể rơi về chạy CPU, làm hệ thống rất chậm. Nếu không cấu hình service, sau khi reboot máy chủ, Ollama có thể không tự chạy lại.
Trong bệnh viện, cài đặt AI local cũng cần gắn với quản trị rủi ro. Trước khi mở cho nhiều người dùng, cần xác định rõ ai có quyền truy cập máy chủ, ai được tải model, ai được xóa model, ai được chỉnh cấu hình, dịch vụ Ollama listen ở địa chỉ nào, firewall mở cổng nào, log nằm ở đâu và khi lỗi thì ai xử lý. Những nội dung này không phải phần phụ, mà là thành phần của triển khai an toàn.
Chương này được viết theo hướng thực hành nhưng vẫn giữ phân tích nền tảng. Mục tiêu là để người đọc hiểu vì sao phải làm từng bước, không chỉ sao chép lệnh. Ở các chương sau, chúng ta sẽ đi sâu hơn vào lựa chọn model, làm việc với model, Modelfile, API và RAG. Nhưng tất cả các nội dung đó đều cần một nền cài đặt Ollama ổn định trước.
- Đăng nhập để gửi ý kiến