Chương 19. Quản trị vận hành hệ thống AI local bệnh viện

Giới thiệu chương

Một hệ thống AI local trong bệnh viện không chỉ cần cài đặt được, chạy được và trả lời được. Quan trọng hơn là phải vận hành được lâu dài. Khi AI bắt đầu được nhiều phòng, khoa sử dụng, hệ thống sẽ trở thành một thành phần trong hạ tầng công nghệ thông tin của bệnh viện. Khi đó, các vấn đề vận hành sẽ xuất hiện: dịch vụ Ollama có tự khởi động sau khi reboot không, model có chiếm quá nhiều dung lượng không, FAISS index có được backup không, tài liệu RAG có đồng bộ không, log có đầy ổ cứng không, GPU có quá nóng không, UPS có đủ thời gian lưu điện không, cập nhật Ollama có làm hỏng hệ thống không, lỗi treo model xử lý thế nào, khi đầy RAM/VRAM/ổ cứng thì ai chịu trách nhiệm và quy trình khắc phục ra sao.

Đây là chương dành cho quản trị vận hành. Nếu các chương trước tập trung vào kiến trúc, ứng dụng, dữ liệu, bảo mật và tối ưu hiệu năng, thì chương này tập trung vào công việc hằng ngày của người quản trị hệ thống AI local. Một bệnh viện muốn dùng AI nghiêm túc cần coi máy chủ AI như một hệ thống sản xuất, không phải máy thử nghiệm cá nhân. Nghĩa là phải có quy trình khởi động, dừng, kiểm tra, backup, cập nhật, giám sát, xử lý sự cố, bảo trì và tài liệu hóa.

Với máy chủ chạy Ubuntu Server, Ollama thường được vận hành như một service. Người quản trị cần nắm các lệnh cơ bản như kiểm tra trạng thái dịch vụ, xem log, khởi động lại, kiểm tra model đang chạy, quản lý model đã tải, kiểm tra dung lượng, theo dõi GPU và xử lý lỗi thường gặp. Nếu hệ thống có thêm FAISS, API trung gian, Drupal/QMS, Nginx, Docker hoặc database metadata, quản trị vận hành càng cần có quy trình rõ ràng để tránh mất dữ liệu hoặc gián đoạn dịch vụ.

Đặc biệt, trong môi trường bệnh viện, backup là yêu cầu sống còn. Model có thể tải lại, nhưng FAISS index, metadata, kho tài liệu đã làm sạch, cấu hình RAG, Modelfile, prompt template, log quan trọng và tài liệu nội bộ đã chuẩn hóa là những thành phần cần được sao lưu có kế hoạch. Nếu mất index hoặc metadata, chatbot có thể không truy xuất được nguồn. Nếu mất kho tài liệu đã xử lý, phải làm lại từ đầu. Nếu mất cấu hình API hoặc Modelfile, hệ thống có thể trả lời sai vai trò. Nếu log bị mất, không thể truy vết sự cố.

Quản trị vận hành cũng phải chú ý phần cứng: nhiệt độ GPU, tải điện, UPS, ổ cứng, RAID, SMART disk, dung lượng log, RAM, swap và tình trạng backup. Một hệ thống AI sinh văn bản có thể chạy GPU trong thời gian dài, tiêu thụ điện đáng kể và sinh nhiệt cao. Nếu không theo dõi, phần cứng có thể quá tải, giảm tuổi thọ hoặc gây dừng dịch vụ bất ngờ.

Chương này gồm 11 bài: khởi động, dừng và kiểm tra dịch vụ Ollama; quản lý model đã tải; quản lý dung lượng lưu trữ model; backup thư mục model; backup dữ liệu FAISS và kho tài liệu; cập nhật Ollama an toàn; quản lý log hệ thống; giám sát nhiệt độ, điện năng và UPS; xử lý lỗi treo model, đầy RAM, đầy VRAM, đầy ổ cứng; kế hoạch bảo trì định kỳ; và tài liệu hóa cấu hình, quy trình vận hành.

Mục tiêu của chương là giúp bệnh viện xây dựng năng lực vận hành AI local bền vững: không chỉ cài đặt thành công trong ngày đầu, mà còn duy trì ổn định sau nhiều tháng, nhiều năm, khi dữ liệu tăng lên, người dùng tăng lên và yêu cầu tích hợp ngày càng phức tạp.

Đăng nhập để gửi ý kiến

Chương 19. Quản trị vận hành hệ thống AI local bệnh viện

Giới thiệu chương

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

Câu hỏi, thảo luận