Bài 1. Các thành phần chính của hệ thống AI local bệnh viện

1. Đặt vấn đề

Một hệ thống AI local trong bệnh viện không thể được hiểu đơn giản là “một máy tính có cài AI”. Cách hiểu đó quá hẹp và dễ dẫn đến triển khai thiếu an toàn. Trong thực tế, AI local là một hệ thống nhiều thành phần, trong đó model chỉ là một phần. Để AI có thể hỗ trợ bệnh viện một cách ổn định, có kiểm soát và có giá trị thực tế, cần phối hợp phần cứng, phần mềm, dữ liệu, bảo mật, tích hợp và quy trình vận hành.

Nếu thiếu phần cứng đủ mạnh, model chạy chậm. Nếu thiếu hệ điều hành ổn định, dịch vụ dễ lỗi. Nếu thiếu công cụ vận hành model, người dùng không thể gọi model thuận tiện. Nếu thiếu dữ liệu nội bộ, AI chỉ trả lời chung chung. Nếu thiếu RAG, AI khó trả lời có căn cứ theo tài liệu bệnh viện. Nếu thiếu phân quyền, dữ liệu có thể bị lộ. Nếu thiếu log, bệnh viện không thể truy vết. Nếu thiếu đánh giá chất lượng, bệnh viện không biết hệ thống có đáng tin hay không.

Vì vậy, bài đầu tiên của Chương 3 trình bày bức tranh tổng thể về các thành phần chính của hệ thống AI local bệnh viện.

2. Hệ thống AI local là một kiến trúc nhiều lớp

Một hệ thống AI local bệnh viện có thể được chia thành các lớp chính:

Lớp phần cứng.
Lớp hệ điều hành.
Lớp vận hành model.
Lớp model AI.
Lớp dữ liệu bệnh viện.
Lớp truy xuất tri thức.
Lớp tích hợp và giao diện.
Lớp bảo mật.
Lớp giám sát và đánh giá chất lượng.
Lớp vận hành, bảo trì và cải tiến liên tục.

Các lớp này không tách rời tuyệt đối. Chúng liên hệ chặt chẽ với nhau. Ví dụ, lựa chọn model phụ thuộc phần cứng; thiết kế RAG phụ thuộc dữ liệu; bảo mật phụ thuộc phân quyền ở giao diện, API và kho tài liệu; đánh giá chất lượng phụ thuộc log và bộ câu hỏi kiểm thử.

Một kiến trúc tốt phải trả lời được hai câu hỏi: hệ thống chạy như thế nào và hệ thống được kiểm soát như thế nào. Với bệnh viện, câu hỏi thứ hai quan trọng không kém câu hỏi thứ nhất.

3. Lớp phần cứng

Lớp phần cứng gồm máy chủ AI, CPU, GPU, RAM, VRAM, SSD, HDD, UPS, nguồn điện, hệ thống làm mát và mạng nội bộ. Đây là nền tảng vật lý của hệ thống.

Trong AI local, GPU thường là thành phần được chú ý nhiều nhất vì giúp tăng tốc model. Tuy nhiên, bệnh viện không nên chỉ nhìn GPU. RAM lớn giúp xử lý tài liệu, chạy FAISS, phục vụ nhiều tiến trình và tránh treo hệ thống. SSD nhanh giúp tải model, đọc dữ liệu, xử lý chỉ mục. HDD dung lượng lớn phù hợp lưu tài liệu, backup và dữ liệu ít truy cập. UPS giúp bảo vệ hệ thống khi mất điện hoặc điện áp không ổn định.

Phần cứng phải được chọn theo mục tiêu sử dụng. Nếu chỉ chạy thử một model 7B cho một người dùng, yêu cầu khác với khi phục vụ nhiều phòng ban, có RAG, có embedding, có dashboard và nhiều người dùng đồng thời.

4. Lớp hệ điều hành

Hệ điều hành là nền tảng vận hành phần mềm. Với AI local, Linux, đặc biệt là Ubuntu Server, thường được lựa chọn vì ổn định, nhẹ, dễ quản trị từ xa và tương thích tốt với nhiều công cụ AI.

Lớp hệ điều hành đảm nhiệm:

Quản lý tài nguyên CPU, RAM, ổ cứng.
Quản lý driver GPU.
Quản lý dịch vụ nền.
Quản lý mạng.
Quản lý người dùng và quyền truy cập.
Ghi log hệ thống.
Cài đặt package, thư viện, Docker nếu cần.
Tự động khởi động dịch vụ sau khi reboot.

Trong bệnh viện, hệ điều hành cần được cấu hình theo nguyên tắc máy chủ: hạn chế cài phần mềm không cần thiết, cập nhật có kiểm soát, phân quyền rõ ràng, backup cấu hình và theo dõi tài nguyên.

5. Lớp vận hành model

Model AI không tự chạy nếu thiếu công cụ vận hành. Lớp vận hành model có thể gồm Ollama, llama.cpp, vLLM, LM Studio hoặc các framework inference khác. Trong chuyên đề này, Ollama là công cụ trọng tâm vì dễ cài, dễ chạy, dễ quản lý model và có API thuận tiện.

Lớp vận hành model thực hiện:

Tải model.
Lưu model.
Chạy model.
Quản lý model.
Nhận prompt.
Sinh câu trả lời.
Cung cấp API.
Điều chỉnh tham số như temperature, top_p, num_ctx.
Tạo model tùy biến qua Modelfile.

Trong bệnh viện, lớp này nên được đặt sau API trung gian hoặc reverse proxy khi triển khai chính thức. Không nên để người dùng gọi trực tiếp vào model mà không có xác thực và log.

6. Lớp model AI

Lớp model gồm các mô hình được sử dụng trong hệ thống. Không chỉ có LLM, mà có thể có embedding model, reranker và vision-language model.

LLM dùng để sinh văn bản, trả lời câu hỏi, tóm tắt, viết báo cáo, phân tích nội dung. Embedding model dùng để chuyển tài liệu và câu hỏi thành vector. Reranker dùng để chọn lại tài liệu phù hợp nhất. Vision-language model dùng cho tác vụ liên quan đến hình ảnh và văn bản nếu cần.

Mỗi loại model có vai trò riêng. Một sai lầm phổ biến là dùng LLM cho tất cả mọi việc. Trong hệ thống RAG, embedding model và FAISS có vai trò tìm đúng tài liệu trước khi LLM trả lời. Nếu tìm sai tài liệu, LLM dù mạnh vẫn có thể trả lời sai.

7. Lớp dữ liệu bệnh viện

Lớp dữ liệu là nơi chứa tri thức của bệnh viện. Đây là thành phần quyết định giá trị thực tế của AI local. Nếu không có dữ liệu nội bộ, AI local chỉ là một chatbot chung. Khi có dữ liệu bệnh viện được tổ chức tốt, AI local trở thành trợ lý tri thức nội bộ.

Dữ liệu có thể gồm:

Quy trình.
Quy định.
Quy chế.
Biểu mẫu.
Hướng dẫn chuyên môn.
Hướng dẫn sử dụng phần mềm.
Văn bản pháp luật y tế.
Bộ tiêu chí chất lượng.
Kế hoạch cải tiến chất lượng.
Báo cáo đã được phép sử dụng.
Tài liệu đào tạo.
Câu hỏi thường gặp.
Tài liệu truyền thông giáo dục sức khỏe.

Dữ liệu cần được phân loại theo mức độ nhạy cảm, hiệu lực, đơn vị ban hành, phiên bản và quyền truy cập. Không nên đưa toàn bộ dữ liệu bệnh viện vào AI một cách không kiểm soát.

8. Lớp truy xuất tri thức

Lớp truy xuất tri thức gồm RAG, FAISS, hybrid search, chunking, embedding và reranking. Đây là lớp giúp AI trả lời dựa trên tài liệu nội bộ.

Quy trình cơ bản:

Tài liệu được làm sạch.
Tài liệu được chia thành chunk.
Chunk được tạo embedding.
Vector được lưu vào FAISS.
Khi người dùng hỏi, câu hỏi được tạo embedding.
FAISS tìm các chunk liên quan.
Reranker có thể sắp xếp lại.
Các chunk được đưa vào prompt.
LLM trả lời dựa trên nguồn.

Lớp này rất quan trọng trong bệnh viện vì yêu cầu trả lời có căn cứ. Một chatbot không có RAG dễ trả lời chung chung, suy diễn hoặc không đúng quy trình nội bộ.

9. Lớp tích hợp và giao diện

Người dùng bệnh viện không nên phải dùng dòng lệnh để hỏi AI. Cần có lớp giao diện và tích hợp phù hợp với quy trình công việc.

Các hình thức có thể gồm:

Chatbot nội bộ.
Website nội bộ.
Drupal.
Dashboard quản trị.
Module trong hệ thống QMS.
API cho phần mềm bệnh viện.
Công cụ hỗ trợ phòng ban.
Giao diện tra cứu tài liệu.
Giao diện quản lý kho tri thức.

Lớp tích hợp giúp AI đi vào công việc thật. Nếu chỉ có model chạy trong terminal, hệ thống khó lan tỏa. Nếu tích hợp tốt với website nội bộ, Drupal hoặc hệ thống quản lý chất lượng, AI có thể trở thành công cụ hằng ngày của nhân viên.

10. Lớp bảo mật

Bảo mật là lớp bắt buộc. Trong bệnh viện, không thể triển khai AI theo kiểu ai cũng hỏi gì cũng được. Cần kiểm soát:

Xác thực người dùng.
Phân quyền theo vai trò.
Phân quyền theo kho tài liệu.
Kiểm soát API.
Không mở model trực tiếp ra Internet.
Ghi log người dùng.
Ghi log câu hỏi và câu trả lời có kiểm soát.
Ẩn danh dữ liệu nhạy cảm.
Kiểm soát dữ liệu đầu vào.
Kiểm soát dữ liệu đầu ra.
Bảo vệ file tài liệu và chỉ mục vector.
Backup và phục hồi dữ liệu.

Bảo mật phải được thiết kế từ đầu, không phải bổ sung sau khi hệ thống đã triển khai rộng.

11. Lớp giám sát và đánh giá chất lượng

Một hệ thống AI local không chỉ cần chạy được, mà cần được đánh giá. Bệnh viện cần biết hệ thống có trả lời đúng không, có căn cứ không, có hữu ích không, có trả lời vượt thẩm quyền không, có chậm không, có bị người dùng phàn nàn không.

Cần theo dõi:

Tốc độ phản hồi.
Tỷ lệ câu trả lời có nguồn.
Tỷ lệ câu trả lời sai.
Tỷ lệ người dùng hài lòng.
Nhóm câu hỏi hay gặp.
Câu hỏi AI không trả lời được.
Lỗi truy xuất tài liệu.
Lỗi model.
Lỗi bảo mật hoặc nhập dữ liệu không phù hợp.
Mức sử dụng CPU, GPU, RAM, VRAM.
Dung lượng ổ cứng.

Không có lớp giám sát, bệnh viện sẽ không biết AI đang hoạt động tốt hay xấu. Không có đánh giá chất lượng, AI có thể tạo niềm tin sai.

12. Kết luận

Hệ thống AI local bệnh viện là một kiến trúc nhiều lớp, gồm phần cứng, hệ điều hành, công cụ vận hành model, model AI, dữ liệu bệnh viện, truy xuất tri thức, tích hợp, bảo mật, giám sát và vận hành. Model chỉ là một thành phần trong hệ thống, không phải toàn bộ hệ thống.

Để triển khai AI local an toàn và hiệu quả, bệnh viện cần thiết kế tổng thể ngay từ đầu. Bắt đầu có thể nhỏ, nhưng kiến trúc phải có khả năng mở rộng. Điều quan trọng không chỉ là AI trả lời được, mà là trả lời dựa trên nguồn đúng, trong phạm vi quyền truy cập, có log, có kiểm soát và có thể cải tiến liên tục.

Đăng nhập để gửi ý kiến