1. Đặt vấn đề
Chất lượng câu trả lời là yếu tố quyết định niềm tin của người dùng đối với AI local. Một hệ thống trả lời nhanh nhưng sai, bịa, thiếu nguồn hoặc không dùng được sẽ không thể triển khai bền vững trong bệnh viện. Đặc biệt trong môi trường y tế, câu trả lời sai có thể ảnh hưởng đến quy trình, chất lượng, an toàn người bệnh và trách nhiệm chuyên môn.
Vì vậy, cần xây dựng nhóm chỉ số đánh giá chất lượng câu trả lời.
2. Đúng với câu hỏi
Chỉ số đầu tiên là AI có trả lời đúng câu hỏi không. Cần đánh giá:
- Có hiểu đúng ý người dùng không?
- Có trả lời đúng phạm vi không?
- Có đi lạc chủ đề không?
- Có trả lời quá chung không?
- Có trả lời thừa thông tin không cần thiết không?
- Có bỏ sót yêu cầu chính không?
Đây là chỉ số cơ bản nhưng rất quan trọng.
3. Đúng nguồn
Với RAG, câu trả lời phải dựa trên nguồn. Cần đánh giá:
- Có truy xuất đúng tài liệu không?
- Có dùng đúng phiên bản không?
- Có hiển thị nguồn không?
- Nguồn có liên quan trực tiếp không?
- Có trích sai nguồn không?
- Có dùng tài liệu hết hiệu lực không?
Tỷ lệ câu trả lời có nguồn đúng là một chỉ số chất lượng quan trọng.
4. Không bịa thông tin
Cần theo dõi:
- Bịa số liệu.
- Bịa căn cứ pháp lý.
- Bịa tên văn bản.
- Bịa quy trình.
- Bịa biểu mẫu.
- Bịa khuyến cáo chuyên môn.
- Bịa kết quả phân tích.
- Bịa nguồn.
Trong bệnh viện, lỗi bịa thông tin cần được xem là lỗi nghiêm trọng.
5. Đầy đủ nhưng không lan man
Một câu trả lời tốt phải đủ ý nhưng không quá dài nếu người dùng chỉ cần tra cứu nhanh. Cần đánh giá:
- Có đủ bước cần thiết không?
- Có nêu lưu ý an toàn không?
- Có nêu điều kiện áp dụng không?
- Có nêu ngoại lệ nếu nguồn có không?
- Có quá lan man không?
- Có làm người dùng khó tìm ý chính không?
Tùy tác vụ, cần định nghĩa độ dài phù hợp.
6. Có cấu trúc sử dụng được
Câu trả lời nên có cấu trúc:
- Tiêu đề.
- Gạch đầu dòng.
- Bảng khi cần.
- Các bước rõ.
- Phân biệt nhận định và đề xuất.
- Có phần lưu ý.
- Có nguồn.
- Có phần “chưa đủ căn cứ” nếu thiếu dữ liệu.
Cấu trúc tốt giúp người dùng copy, chỉnh sửa và áp dụng dễ hơn.
7. Phù hợp văn phong bệnh viện
Cần đánh giá:
- Văn phong hành chính phù hợp không?
- Thuật ngữ bệnh viện đúng không?
- Câu chữ có chuyên nghiệp không?
- Có phù hợp với lãnh đạo bệnh viện, phòng chức năng, khoa lâm sàng không?
- Có quá quảng cáo hoặc quá cảm tính không?
- Có dùng từ gây hiểu nhầm không?
Với nội dung đưa lên website hoặc văn bản nội bộ, văn phong rất quan trọng.
8. An toàn chuyên môn
Với câu hỏi liên quan y tế, cần đánh giá:
- AI có tránh chẩn đoán/kê đơn không?
- Có nhắc cần nhân viên y tế có thẩm quyền không?
- Có giới hạn rõ khi thiếu ngữ cảnh không?
- Có tránh tư vấn cá nhân hóa cho người bệnh không?
- Có bám tài liệu chuyên môn đã duyệt không?
- Có bỏ sót cảnh báo an toàn không?
Đây là chỉ số bắt buộc nếu chatbot có nội dung chuyên môn.
9. Mức độ có thể sử dụng ngay
Câu trả lời có thể chấm:
- Dùng được ngay.
- Dùng được sau chỉnh sửa nhẹ.
- Cần chỉnh sửa nhiều.
- Không dùng được.
- Nguy hiểm/không phù hợp.
Chỉ số này rất thực tế, đặc biệt với văn bản, bảng kiểm, kế hoạch và báo cáo.
10. Cách chấm điểm chất lượng
Có thể dùng thang 1–5:
| Điểm | Ý nghĩa |
|---|---|
| 1 | Sai hoặc không dùng được |
| 2 | Có ý liên quan nhưng thiếu/sai nhiều |
| 3 | Dùng được một phần, cần chỉnh sửa đáng kể |
| 4 | Tốt, cần chỉnh sửa nhẹ |
| 5 | Rất tốt, có thể dùng gần như ngay |
Nên có người nghiệp vụ chấm, không chỉ CNTT.
11. Bộ câu hỏi kiểm thử chuẩn
Cần có bộ câu hỏi test định kỳ:
- 10 câu hỏi quy trình.
- 10 câu hỏi biểu mẫu.
- 10 câu hỏi QLCL.
- 10 câu hỏi viết báo cáo.
- 10 câu hỏi bảng kiểm.
- 10 câu hỏi cần từ chối chuyên môn.
- 10 câu hỏi pháp luật cần nguồn.
Bộ test giúp so sánh model/prompt/RAG qua thời gian.
12. Kết luận
Chất lượng câu trả lời là chỉ số trung tâm của AI local. Cần đánh giá độ đúng, nguồn, không bịa, độ đầy đủ, cấu trúc, văn phong, an toàn chuyên môn và khả năng sử dụng ngay. Một hệ thống AI bệnh viện chỉ nên mở rộng khi chất lượng câu trả lời đạt ngưỡng chấp nhận được và có cơ chế phát hiện, sửa lỗi thường xuyên.
- Đăng nhập để gửi ý kiến