1. Đặt vấn đề
Một hệ thống RAG không thể được đánh giá chỉ bằng cảm giác “trả lời có vẻ ổn”. Cần có phương pháp đánh giá chất lượng rõ ràng. Trong bệnh viện, đánh giá RAG phải xem xét cả hai phần: hệ thống có tìm đúng tài liệu không và model có trả lời đúng theo tài liệu không.
Nếu chỉ đánh giá câu trả lời cuối, ta có thể không biết lỗi nằm ở đâu: do tài liệu sai, chunk sai, embedding sai, FAISS tìm sai, prompt sai hay model sinh sai. Vì vậy, đánh giá RAG cần tách lớp.
2. Các tiêu chí đánh giá chính
2.1. Retrieval accuracy
Hệ thống có tìm đúng tài liệu không?
2.2. Groundedness
Câu trả lời có bám nguồn không?
2.3. Faithfulness
Câu trả lời có trung thành với tài liệu không?
2.4. Completeness
Câu trả lời có đủ ý quan trọng không?
2.5. Relevance
Câu trả lời có đúng câu hỏi không?
2.6. Citation quality
Nguồn trích dẫn có đúng không?
2.7. Safety
Có vượt thẩm quyền, bịa hoặc tư vấn sai không?
3. Xây bộ câu hỏi đánh giá
Bệnh viện nên xây bộ câu hỏi theo nhóm:
- Quy trình.
- Biểu mẫu.
- Quy định.
- Pháp luật.
- QLCL.
- Điều dưỡng.
- CNTT.
- KSNK.
- Phác đồ/hướng dẫn chuyên môn.
- Câu hỏi không có nguồn.
- Câu hỏi vượt quyền.
Mỗi câu hỏi cần có tài liệu đúng mong đợi.
4. Đánh giá retrieval
Với mỗi câu hỏi, kiểm tra:
- Tài liệu đúng có nằm trong top 3 không?
- Tài liệu đúng có nằm trong top 5 không?
- Chunk đúng có được chọn không?
- Có lấy nhầm bản cũ không?
- Có lấy tài liệu vượt quyền không?
Nếu retrieval sai, cần sửa embedding, chunking, metadata hoặc search.
5. Đánh giá câu trả lời
Cần xem:
- Có đúng theo nguồn không?
- Có bỏ sót bước quan trọng không?
- Có thêm thông tin không có trong nguồn không?
- Có hiểu sai nguồn không?
- Có nêu nguồn không?
- Có nói thiếu căn cứ khi cần không?
- Văn phong có dễ hiểu không?
6. Chấm điểm
Có thể dùng thang 1–5:
| Tiêu chí | Điểm |
|---|---|
| Tìm đúng nguồn | 1–5 |
| Bám nguồn | 1–5 |
| Đúng nội dung | 1–5 |
| Đầy đủ | 1–5 |
| Trình bày rõ | 1–5 |
| Không bịa | 1–5 |
| Nguồn trích dẫn | 1–5 |
Cần ghi nhận nhận xét, không chỉ điểm số.
7. Đánh giá câu hỏi không có nguồn
Đây là bài test rất quan trọng. Nếu câu hỏi không có tài liệu, hệ thống phải nói chưa đủ căn cứ. Nếu vẫn trả lời như chắc chắn, đó là lỗi nghiêm trọng.
Ví dụ:
“Bệnh viện quy định thời hạn báo cáo loại sự cố X là bao lâu?” nhưng kho tài liệu không có quy định này.
Câu trả lời tốt: chưa tìm thấy căn cứ.
8. Đánh giá phân quyền
Test bằng nhiều user:
- User thường.
- User khoa A.
- User khoa B.
- User phòng QLCL.
- User lãnh đạo.
Kiểm tra hệ thống có trả tài liệu đúng quyền không. Đây là phần đánh giá bảo mật, không chỉ chất lượng AI.
9. Đánh giá thực tế với người dùng
Sau test kỹ thuật, cần người dùng chuyên môn đánh giá:
- Phòng QLCL.
- Điều dưỡng.
- CNTT.
- KHTH.
- Khoa lâm sàng.
- Khoa cận lâm sàng.
Người dùng sẽ phát hiện lỗi mà kỹ thuật khó thấy: thuật ngữ sai, quy trình thiếu bước, câu trả lời không thực tế.
10. Theo dõi sau triển khai
Sau khi chạy thật, cần theo dõi:
- Câu hỏi không trả lời được.
- Feedback sai.
- Nguồn truy xuất sai.
- Tài liệu hay được hỏi.
- Tài liệu thiếu.
- Model trả lời vượt thẩm quyền.
- Tốc độ phản hồi.
RAG cần cải tiến liên tục.
11. Kết luận
Đánh giá RAG phải có phương pháp, không dựa vào cảm giác. Cần đánh giá retrieval, câu trả lời, nguồn, hallucination, phân quyền và phản hồi người dùng. Bộ câu hỏi đánh giá phải sát tài liệu bệnh viện. Chỉ khi đánh giá nghiêm túc, bệnh viện mới biết hệ thống RAG có đủ tin cậy để dùng rộng rãi hay chưa.
- Đăng nhập để gửi ý kiến