Bài 1. Nguyên tắc chọn model cho bệnh viện

1. Đặt vấn đề

Chọn model AI local cho bệnh viện không giống chọn một phần mềm thông thường. Với phần mềm truyền thống, người dùng thường xem chức năng, giao diện, chi phí và khả năng tích hợp. Với model AI, ngoài các yếu tố đó, cần xem xét thêm chất lượng ngôn ngữ, khả năng suy luận, mức độ hallucination, yêu cầu phần cứng, tốc độ sinh token, khả năng tiếng Việt, khả năng bám nguồn, độ ổn định khi dùng trong RAG, giấy phép sử dụng và mức độ phù hợp với rủi ro y tế.

Nếu chọn model sai, hệ thống AI local có thể gặp nhiều vấn đề: chạy quá chậm, trả lời tiếng Việt kém, viết văn bản không đúng phong cách bệnh viện, không hiểu thuật ngữ quản lý chất lượng, trả lời sai quy trình, bịa căn cứ pháp lý hoặc không chịu nói “không biết” khi thiếu dữ liệu. Ngược lại, nếu chọn model phù hợp, ngay cả model không quá lớn vẫn có thể tạo giá trị thực tế cao khi kết hợp với RAG, prompt tốt và dữ liệu nội bộ sạch.

2. Nguyên tắc 1: Chọn theo nhu cầu thật, không chọn theo trào lưu

Nguyên tắc đầu tiên là phải xuất phát từ nhu cầu của bệnh viện. Không nên chọn model chỉ vì model đó đang nổi tiếng, có nhiều tham số hoặc được cộng đồng nhắc nhiều.

Bệnh viện cần xác định rõ: model sẽ dùng để làm gì?

Soạn thảo văn bản hành chính?
Tóm tắt tài liệu?
Hỏi đáp quy trình nội bộ?
Hỗ trợ quản lý chất lượng?
Tra cứu văn bản pháp luật y tế?
Tạo bảng kiểm?
Phân loại phản ánh người bệnh?
Hỗ trợ CNTT?
Tạo embedding cho FAISS?
Reranking kết quả truy xuất?

Mỗi nhu cầu có yêu cầu khác nhau. Một model viết văn bản tốt chưa chắc là model embedding tốt. Một model lập trình tốt chưa chắc viết văn bản hành chính bệnh viện tốt. Một model hội thoại tự nhiên chưa chắc phù hợp với trả lời có căn cứ.

Vì vậy, trước khi chọn model, cần lập danh sách tác vụ ưu tiên của bệnh viện.

3. Nguyên tắc 2: Chọn theo phần cứng thực tế

Model phải chạy được trên phần cứng hiện có. Đây là nguyên tắc rất thực tế. Nếu bệnh viện có GPU 16GB VRAM, không nên chọn model 70B làm model chính cho chatbot nội bộ. Nếu RAM không đủ, không nên chạy nhiều model lớn đồng thời. Nếu SSD nhỏ, không nên tải quá nhiều model.

Cần xem:

GPU có bao nhiêu VRAM?
RAM tổng bao nhiêu?
CPU mạnh đến đâu?
SSD còn bao nhiêu dung lượng?
Model có chạy hoàn toàn trên GPU không?
Tốc độ sinh token có chấp nhận được không?
Có bao nhiêu người dùng đồng thời?
Có cần chạy embedding song song không?
Có cần nhiều model cùng lúc không?

Trong AI local, model lớn nhưng chạy quá chậm thường không có giá trị thực tế. Người dùng bệnh viện cần phản hồi đủ nhanh để đưa vào công việc hằng ngày. Một model vừa phải, ổn định, phản hồi nhanh có thể hiệu quả hơn model lớn nhưng chậm.

4. Nguyên tắc 3: Ưu tiên khả năng tiếng Việt

Bệnh viện Việt Nam chủ yếu làm việc bằng tiếng Việt. Văn bản bệnh viện có đặc thù riêng: hành chính, chuyên môn, pháp lý, quản lý chất lượng, thuật ngữ y tế, thuật ngữ bảo hiểm, thuật ngữ điều dưỡng, thuật ngữ kiểm soát nhiễm khuẩn, văn phong công vụ và văn bản nội bộ.

Do đó, model cần được kiểm tra khả năng tiếng Việt bằng chính tác vụ thực tế, không chỉ hỏi vài câu hội thoại đơn giản. Cần thử:

Viết kế hoạch bệnh viện.
Tóm tắt quy trình tiếng Việt.
Viết bảng kiểm.
Phân tích nguyên nhân.
Giải thích văn bản pháp luật y tế.
Tạo nội dung truyền thông sức khỏe.
Chuyển ý gạch đầu dòng thành văn bản hành chính.
Trả lời câu hỏi dựa trên tài liệu RAG tiếng Việt.

Một model có thể trả lời tiếng Việt giao tiếp khá tốt nhưng lại viết văn bản hành chính kém, dùng từ không chuẩn hoặc diễn đạt thiếu chuyên nghiệp. Vì vậy, kiểm tra tiếng Việt phải sát bối cảnh bệnh viện.

5. Nguyên tắc 4: Chọn theo mức độ rủi ro của tác vụ

Không phải tác vụ nào cũng có rủi ro như nhau. Tác vụ viết nháp kế hoạch nội bộ có rủi ro thấp hơn tác vụ hỗ trợ chuyên môn lâm sàng. Tác vụ tra cứu quy trình có rủi ro thấp hơn xử lý bệnh án định danh. Tác vụ gợi ý nội dung đào tạo cần kiểm duyệt, nhưng vẫn khác với tư vấn điều trị cho người bệnh.

Với tác vụ rủi ro thấp, có thể dùng model nhỏ hơn, miễn là người dùng kiểm tra kết quả. Với tác vụ liên quan chuyên môn, pháp lý hoặc dữ liệu nhạy cảm, cần model thận trọng hơn, prompt kiểm soát chặt hơn, RAG có nguồn rõ hơn và quy trình duyệt chặt hơn.

Model dùng trong bệnh viện nên có khả năng nói rõ khi không đủ căn cứ. Một model luôn trả lời tự tin dù thiếu dữ liệu là rủi ro cao.

6. Nguyên tắc 5: Ưu tiên khả năng bám nguồn khi dùng RAG

Trong bệnh viện, nhiều ứng dụng AI local cần trả lời dựa trên tài liệu nội bộ. Khi dùng RAG, model cần biết sử dụng ngữ cảnh được cung cấp, không tự bịa thêm. Một model tốt cho RAG cần:

Đọc đoạn tài liệu được cung cấp.
Trả lời theo tài liệu.
Không tự suy diễn quá mức.
Nêu rõ khi tài liệu không đủ thông tin.
Có thể trích dẫn hoặc nhắc nguồn.
Không trộn lẫn kiến thức chung với quy định nội bộ nếu không được yêu cầu.

Khi đánh giá model, cần dùng bộ câu hỏi RAG. Không nên chỉ đánh giá bằng hội thoại chung.

7. Nguyên tắc 6: Tách model theo chức năng

Bệnh viện không nhất thiết dùng một model duy nhất cho mọi việc. Có thể tách:

Model chính để sinh văn bản.
Model nhẹ cho tác vụ nhanh.
Model chuyên dùng cho soạn thảo hành chính.
Model dùng cho quản lý chất lượng.
Model embedding cho FAISS.
Model reranker cho truy xuất.
Model thử nghiệm riêng.

Tách model theo chức năng giúp tối ưu chất lượng và tài nguyên. Ví dụ, embedding model không cần sinh văn bản. LLM không nhất thiết tạo embedding tốt. Một model nhỏ có thể đủ cho phân loại nhanh, trong khi model lớn hơn dùng cho viết văn bản dài.

8. Nguyên tắc 7: Đánh giá bằng dữ liệu và tình huống của bệnh viện

Không nên chỉ dựa vào benchmark công khai. Benchmark có giá trị tham khảo, nhưng bệnh viện cần bộ kiểm thử riêng. Bộ kiểm thử nên gồm:

Câu hỏi về quy trình nội bộ.
Tác vụ viết kế hoạch.
Tác vụ tóm tắt văn bản.
Tác vụ tạo bảng kiểm.
Tác vụ phân tích phản ánh.
Câu hỏi cần trả lời “không đủ căn cứ”.
Tác vụ tiếng Việt hành chính.
Tác vụ RAG với tài liệu thật.
Tác vụ pháp luật y tế.
Tác vụ quản lý chất lượng.

Model nào trả lời tốt trên bộ tình huống của bệnh viện mới là model phù hợp.

9. Nguyên tắc 8: Kiểm tra tốc độ và tính ổn định

Một model chất lượng tốt nhưng quá chậm có thể không dùng được trong thực tế. Cần đo:

Thời gian phản hồi câu hỏi ngắn.
Thời gian phản hồi câu hỏi RAG.
Thời gian viết văn bản dài.
Tốc độ sinh token.
VRAM sử dụng.
RAM sử dụng.
Nhiệt độ GPU.
Khả năng chạy liên tục.
Khả năng phục vụ nhiều request.

Cần kiểm tra trong điều kiện thực tế, không chỉ một lần chạy thử.

10. Nguyên tắc 9: Xem xét giấy phép sử dụng

Model có giấy phép khác nhau. Có model cho phép dùng thương mại, có model hạn chế, có model yêu cầu tuân thủ điều kiện riêng. Bệnh viện cần xem xét giấy phép nếu dùng model trong hệ thống nội bộ chính thức, tích hợp phần mềm hoặc cung cấp dịch vụ cho nhiều người dùng.

Không nên bỏ qua yếu tố giấy phép, đặc biệt nếu hệ thống phát triển thành sản phẩm hoặc dịch vụ.

11. Nguyên tắc 10: Có kế hoạch thay thế và cập nhật

Hệ sinh thái model thay đổi nhanh. Model tốt hôm nay có thể bị thay bằng model tốt hơn sau vài tháng. Vì vậy, bệnh viện nên có quy trình đánh giá và thay model:

Không thay model tùy tiện.
Test model mới trên bộ câu hỏi chuẩn.
So sánh với model hiện tại.
Đánh giá tốc độ.
Đánh giá RAG.
Ghi lại phiên bản.
Có phương án rollback.
Thông báo cho người dùng nếu hành vi thay đổi.

Model cần được quản trị như một thành phần hệ thống, không phải tùy hứng tải về và đổi.

12. Kết luận

Chọn model cho bệnh viện phải dựa trên nhu cầu thật, phần cứng thực tế, khả năng tiếng Việt, tác vụ cụ thể, mức độ rủi ro, khả năng bám nguồn, tốc độ, ổn định, giấy phép và khả năng quản trị dài hạn. Không có model tốt nhất cho mọi việc. Model phù hợp nhất là model đáp ứng tốt nhu cầu bệnh viện trong giới hạn phần cứng và quy trình kiểm soát hiện có.

Đăng nhập để gửi ý kiến