Bài 12. Kinh nghiệm đánh giá model trước khi đưa vào sử dụng thật

1. Đặt vấn đề

Trước khi đưa model AI local vào sử dụng thật trong bệnh viện, cần đánh giá nghiêm túc. Không nên chỉ chạy vài câu hỏi, thấy model trả lời trôi chảy rồi triển khai rộng. Trong bệnh viện, model trả lời trôi chảy nhưng sai còn nguy hiểm hơn model trả lời kém, vì người dùng dễ tin.

Đánh giá model là quá trình kiểm tra chất lượng, tốc độ, độ ổn định, khả năng tiếng Việt, khả năng bám nguồn, mức độ hallucination, khả năng xử lý tác vụ bệnh viện và mức tiêu thụ tài nguyên. Đây là bước bắt buộc trước khi chọn model chính thức.

2. Xây bộ câu hỏi kiểm thử

Bệnh viện nên xây bộ câu hỏi kiểm thử riêng. Bộ này nên phản ánh nhu cầu thật:

Hỏi đáp quy trình.
Tóm tắt tài liệu.
Viết văn bản hành chính.
Tạo bảng kiểm.
Phân tích nguyên nhân.
Phân loại phản ánh.
Trích xuất metadata.
Tra cứu pháp luật y tế.
Tài liệu chuyên môn.
Câu hỏi không đủ căn cứ.

Mỗi câu hỏi nên có đáp án mong đợi hoặc tiêu chí chấm.

3. Đánh giá tiếng Việt

Cần đánh giá:

Câu văn có tự nhiên không?
Văn phong có phù hợp bệnh viện không?
Có dùng sai thuật ngữ không?
Có lặp ý không?
Có diễn đạt mơ hồ không?
Có viết được văn bản dài không?
Có giữ đúng cấu trúc không?

Không nên chỉ đánh giá bằng hội thoại thông thường.

4. Đánh giá độ đúng

Độ đúng là tiêu chí quan trọng nhất. Với câu hỏi có nguồn, cần xem:

Câu trả lời có đúng tài liệu không?
Có bỏ sót ý quan trọng không?
Có thêm thông tin ngoài nguồn không?
Có nhầm quy trình không?
Có nhầm biểu mẫu không?
Có nhầm đối tượng áp dụng không?

Với văn bản pháp luật, cần kiểm tra số hiệu, điều khoản, ngày tháng và tình trạng hiệu lực nếu có.

5. Đánh giá khả năng nói “không biết”

Model tốt trong bệnh viện phải biết từ chối hoặc nói chưa đủ căn cứ khi không có thông tin. Cần test các câu hỏi mà tài liệu không có đáp án. Nếu model vẫn bịa câu trả lời tự tin, rủi ro cao.

Ví dụ:

Hỏi về một quy trình không có trong kho.
Hỏi số văn bản không tồn tại.
Hỏi nội dung không được tài liệu đề cập.
Yêu cầu kết luận chuyên môn vượt phạm vi.

6. Đánh giá RAG

Nếu model dùng trong RAG, cần đánh giá cả pipeline:

FAISS có tìm đúng tài liệu không?
Chunk có đủ ngữ cảnh không?
Model có dùng đúng chunk không?
Câu trả lời có nguồn không?
Có trộn kiến thức ngoài nguồn không?
Có trả lời khi nguồn không đủ không?

Không nên chỉ đánh giá LLM riêng lẻ.

7. Đánh giá tốc độ và tài nguyên

Cần đo:

Thời gian phản hồi trung bình.
Tốc độ sinh token.
VRAM sử dụng.
RAM sử dụng.
CPU usage.
Nhiệt độ GPU.
Dung lượng model.
Hiệu năng khi nhiều request.
Hiệu năng với prompt dài.

Ghi kết quả vào bảng so sánh model.

8. Đánh giá độ ổn định

Chạy model nhiều lần với cùng câu hỏi hoặc câu hỏi tương tự. Xem câu trả lời có ổn định không. Với tác vụ hành chính và pháp luật, cần ổn định. Với tác vụ ý tưởng, có thể chấp nhận đa dạng hơn.

Nên test trong nhiều ngày, không chỉ một buổi.

9. Đánh giá theo người dùng thật

Sau đánh giá kỹ thuật, nên cho nhóm người dùng nhỏ thử:

Phòng Quản lý chất lượng.
Phòng Kế hoạch tổng hợp.
Phòng CNTT.
Phòng Điều dưỡng.
Một số khoa thử nghiệm.

Thu thập phản hồi:

Có hữu ích không?
Có dễ dùng không?
Câu trả lời có đúng không?
Có tiết kiệm thời gian không?
Có lỗi nào lặp lại không?
Người dùng có hiểu giới hạn không?

10. Chấm điểm model

Có thể tạo bảng chấm điểm:

Tiêu chí	Điểm
Tiếng Việt	1–5
Độ đúng	1–5
Bám nguồn RAG	1–5
Văn phong bệnh viện	1–5
Tốc độ	1–5
Ổn định	1–5
Ít hallucination	1–5
Phù hợp phần cứng	1–5
Dễ tích hợp	1–5
Tổng thể	1–5

Nên ghi nhận nhận xét định tính kèm điểm.

11. Không đưa vào sử dụng thật nếu chưa có quy chế

Ngay cả model tốt cũng không nên triển khai rộng nếu chưa có:

Quy chế sử dụng.
Hướng dẫn dữ liệu không được nhập.
Phân quyền.
Log.
Cơ chế phản hồi lỗi.
Người chịu trách nhiệm vận hành.
Cảnh báo AI chỉ hỗ trợ.
Quy trình kiểm tra văn bản trước khi ban hành.

Model chỉ là một phần của hệ thống.

12. Kết luận

Đánh giá model trước khi dùng thật là bước bắt buộc trong bệnh viện. Cần đánh giá bằng bộ câu hỏi thực tế, tài liệu thực tế, tiêu chí rõ ràng và phản hồi người dùng thật. Model phù hợp không chỉ trả lời hay, mà phải đúng, ổn định, bám nguồn, xử lý tiếng Việt tốt, chạy được trên phần cứng hiện có và phù hợp với quy chế sử dụng của bệnh viện.

Khi đánh giá nghiêm túc, bệnh viện sẽ chọn được model thực tế hơn, giảm rủi ro và tạo nền tảng vững chắc cho các ứng dụng AI local tiếp theo.

Đăng nhập để gửi ý kiến