1. Đặt vấn đề
Câu trả lời sai hoặc không có căn cứ là lỗi nghiêm trọng nhất về chất lượng AI. Trong bệnh viện, nếu AI bịa quy trình, bịa căn cứ pháp lý, bịa số liệu, trả lời theo tài liệu cũ hoặc tự suy luận chuyên môn, hậu quả có thể ảnh hưởng đến quản trị, chất lượng, pháp lý và an toàn người bệnh.
Vì vậy, hệ thống AI local phải được thiết kế để giảm thiểu hallucination và luôn ưu tiên câu trả lời có nguồn.
2. Biểu hiện thường gặp
- AI bịa tên văn bản.
- AI bịa số liệu.
- AI bịa bước quy trình.
- AI trả lời như có nguồn nhưng không hiển thị nguồn.
- AI trích sai tài liệu.
- AI dùng tài liệu hết hiệu lực.
- AI tự suy diễn khi không có dữ liệu.
- AI trả lời quá tự tin.
- AI không nói “chưa đủ căn cứ”.
- AI pha trộn nhiều nguồn không liên quan.
3. Nguyên nhân do không dùng RAG
Nếu hỏi trực tiếp model về quy trình nội bộ bệnh viện, model không thể biết chính xác. Nó sẽ dựa vào kiến thức chung và sinh câu trả lời có vẻ hợp lý nhưng không đúng nội bộ.
Giải pháp: dùng RAG với tài liệu đã duyệt.
4. Nguyên nhân do RAG kém
Ngay cả khi có RAG, câu trả lời vẫn sai nếu:
- FAISS tìm sai tài liệu.
- Chunk quá nhỏ hoặc quá lớn.
- Metadata thiếu.
- Không lọc tài liệu hết hiệu lực.
- Không lọc quyền.
- Đưa quá nhiều chunk nhiễu.
- Prompt không buộc bám nguồn.
- Tài liệu nguồn đã sai hoặc cũ.
5. Nguyên nhân do prompt
Prompt cần yêu cầu:
- Chỉ trả lời theo nguồn được cung cấp.
- Nếu không có nguồn, nói không đủ căn cứ.
- Không bịa số liệu, văn bản, biểu mẫu.
- Hiển thị nguồn.
- Phân biệt nội dung từ nguồn và nhận định gợi ý.
Nếu prompt không rõ, model dễ suy diễn.
6. Nguyên nhân do người dùng hỏi thiếu thông tin
Ví dụ:
Quy trình này làm thế nào?Không rõ quy trình nào, khoa nào, phiên bản nào. AI có thể đoán. Giao diện nên yêu cầu làm rõ hoặc tìm nguồn gần nhất và nêu giới hạn.
7. Cách xử lý khi phát hiện câu trả lời sai
Cần quy trình:
- Lưu câu hỏi, câu trả lời, nguồn đã dùng.
- Xác định lỗi do model, RAG, prompt hay dữ liệu.
- Kiểm tra tài liệu gốc.
- Sửa metadata/chunk/prompt nếu cần.
- Cập nhật index.
- Test lại bằng câu hỏi tương tự.
- Ghi nhận lỗi và biện pháp phòng ngừa.
- Thông báo nếu lỗi có ảnh hưởng.
8. Cơ chế “không đủ căn cứ”
AI cần được huấn luyện bằng prompt và kiểm soát đầu ra để nói:
- “Tôi chưa tìm thấy tài liệu phù hợp.”
- “Chưa đủ căn cứ từ kho tài liệu hiện có.”
- “Cần kiểm tra văn bản gốc hoặc đơn vị phụ trách.”
- “Không nên sử dụng câu trả lời này như căn cứ chính thức.”
Câu trả lời “không biết” đúng lúc là dấu hiệu của hệ thống an toàn.
9. Hiển thị nguồn
Nguồn nên gồm:
- Tên tài liệu.
- Mã tài liệu.
- Phiên bản.
- Ngày ban hành.
- Đoạn liên quan.
- Link mở tài liệu.
- Tình trạng hiệu lực nếu có.
Không chỉ ghi “theo quy trình nội bộ” mà không dẫn nguồn.
10. Đánh giá định kỳ
Cần có bộ câu hỏi kiểm thử:
- Câu có nguồn rõ.
- Câu không có nguồn.
- Câu hỏi mơ hồ.
- Câu hỏi về tài liệu cũ.
- Câu hỏi yêu cầu số liệu.
- Câu hỏi pháp luật.
- Câu hỏi chuyên môn cần từ chối.
Đánh giá định kỳ giúp phát hiện xu hướng sai.
11. Kết luận
Câu trả lời sai hoặc không có căn cứ là rủi ro lớn của AI local trong bệnh viện. Giải pháp không chỉ là chọn model tốt hơn, mà là xây RAG tốt, dữ liệu đúng, prompt chặt, hiển thị nguồn, biết nói thiếu căn cứ và có quy trình xử lý lỗi. Trong bệnh viện, câu trả lời có căn cứ quan trọng hơn câu trả lời tự tin.
- Đăng nhập để gửi ý kiến