1. Đặt vấn đề
Một hệ thống AI local không thể được đánh giá chỉ bằng câu hỏi “có chạy được không?”. Trong bệnh viện, hệ thống phải được đánh giá bằng các câu hỏi quan trọng hơn: câu trả lời có đúng không, có căn cứ không, có phù hợp quy trình bệnh viện không, có vượt thẩm quyền không, có bảo mật không, có hữu ích với người dùng không, có tiết kiệm thời gian không và có ổn định khi vận hành không.
AI có thể trả lời rất tự tin nhưng sai. AI có thể viết rất hay nhưng không đúng tài liệu. AI có thể trích nguồn nhưng nguồn không phù hợp. AI có thể trả lời đúng trong một số câu hỏi nhưng sai ở các câu hỏi khác. Vì vậy, bệnh viện cần lớp giám sát và đánh giá chất lượng câu trả lời.
Lớp này giúp AI local không chỉ là công nghệ thử nghiệm, mà trở thành hệ thống có thể cải tiến liên tục.
2. Vì sao cần giám sát AI?
Giám sát AI giúp bệnh viện phát hiện các vấn đề:
- Model trả lời sai.
- RAG truy xuất sai tài liệu.
- Câu trả lời thiếu nguồn.
- Câu trả lời vượt thẩm quyền.
- Người dùng nhập dữ liệu nhạy cảm.
- Hệ thống phản hồi quá chậm.
- Model bị lỗi hoặc treo.
- GPU/RAM quá tải.
- Tài liệu cũ vẫn được truy xuất.
- Người dùng không hài lòng.
- Một số phòng ban dùng sai mục đích.
Nếu không giám sát, bệnh viện chỉ biết lỗi khi có sự cố nghiêm trọng hoặc người dùng phàn nàn.
3. Các chỉ số kỹ thuật cần theo dõi
Chỉ số kỹ thuật giúp đánh giá hệ thống có vận hành ổn định không:
- CPU usage.
- RAM usage.
- GPU usage.
- VRAM usage.
- Nhiệt độ GPU.
- Dung lượng ổ cứng.
- Thời gian phản hồi trung bình.
- Số request/phút.
- Số request lỗi.
- Thời gian tải model.
- Tốc độ sinh token.
- Trạng thái service Ollama.
- Trạng thái API.
- Trạng thái FAISS index.
- Lỗi truy xuất tài liệu.
Các chỉ số này giúp phòng CNTT phát hiện quá tải, thiếu tài nguyên hoặc lỗi hệ thống.
4. Các chỉ số chất lượng câu trả lời
Chất lượng câu trả lời cần được đánh giá riêng. Có thể theo dõi:
- Câu trả lời có đúng tài liệu không?
- Có trích nguồn không?
- Nguồn có phù hợp không?
- Có dùng tài liệu còn hiệu lực không?
- Có trả lời thiếu không?
- Có bịa thông tin không?
- Có trả lời vượt phạm vi không?
- Có cảnh báo khi thiếu căn cứ không?
- Văn phong có phù hợp bệnh viện không?
- Người dùng có đánh giá hữu ích không?
Bệnh viện nên có bộ tiêu chí chấm điểm câu trả lời. Ví dụ: đúng, đầy đủ, có nguồn, dễ hiểu, phù hợp thẩm quyền, an toàn.
5. Đánh giá riêng RAG
Khi hệ thống trả lời sai, nguyên nhân có thể nằm ở model hoặc truy xuất. Vì vậy, cần đánh giá riêng RAG:
- Câu hỏi đó FAISS trả về tài liệu nào?
- Tài liệu đúng có nằm trong top kết quả không?
- Chunk có đủ ngữ cảnh không?
- Metadata có đúng không?
- Reranker có chọn đúng không?
- Prompt có đưa đủ nguồn không?
- LLM có sử dụng đúng nguồn không?
Nếu truy xuất sai, cần cải thiện dữ liệu, chunking, embedding hoặc reranker. Nếu truy xuất đúng nhưng LLM trả lời sai, cần cải thiện prompt, model hoặc kiểm soát đầu ra.
6. Bộ câu hỏi kiểm thử chuẩn
Bệnh viện nên xây dựng một bộ câu hỏi kiểm thử chuẩn cho từng nhóm ứng dụng. Ví dụ:
Nhóm quy trình nội bộ
- Quy trình báo cáo sự cố y khoa gồm mấy bước?
- Biểu mẫu nào dùng khi người bệnh té ngã?
- Ai chịu trách nhiệm tổng hợp phản ánh người bệnh?
Nhóm quản lý chất lượng
- Khi xây dựng kế hoạch cải tiến chất lượng cần có các phần nào?
- Minh chứng cho tiêu chí an toàn người bệnh gồm những gì?
- Phân tích nguyên nhân gốc rễ nên dùng công cụ nào?
Nhóm hành chính
- Quy trình ban hành văn bản nội bộ gồm những bước nào?
- Mẫu kế hoạch năm nằm ở đâu?
Nhóm CNTT
- Khi không truy cập được hệ thống nội bộ cần kiểm tra gì?
- Quy trình cấp tài khoản phần mềm gồm những bước nào?
Mỗi câu hỏi nên có đáp án chuẩn hoặc tài liệu nguồn chuẩn. Dùng bộ này để test model, test RAG và test sau mỗi lần cập nhật.
7. Phản hồi người dùng
Người dùng là nguồn đánh giá rất quan trọng. Giao diện AI nên có nút:
- Hữu ích.
- Không hữu ích.
- Sai nguồn.
- Thiếu thông tin.
- Trả lời khó hiểu.
- Báo lỗi bảo mật.
- Góp ý thêm.
Phản hồi này giúp nhóm quản trị biết cần cải thiện gì. Tuy nhiên, không nên chỉ dựa vào cảm nhận người dùng. Cần kết hợp đánh giá chuyên môn.
8. Kiểm duyệt chuyên môn
Với các ứng dụng liên quan quản lý chất lượng, chuyên môn y tế, quy trình bệnh viện hoặc văn bản pháp lý, cần có người phụ trách chuyên môn đánh giá định kỳ. Ví dụ:
- Phòng Quản lý chất lượng đánh giá câu trả lời về tiêu chí và cải tiến.
- Phòng Điều dưỡng đánh giá câu trả lời về quy trình chăm sóc.
- Phòng CNTT đánh giá câu trả lời kỹ thuật.
- Phòng Kế hoạch tổng hợp đánh giá văn bản quản trị.
- Hội đồng chuyên môn đánh giá phạm vi chuyên môn nếu cần.
AI không thể tự đánh giá hoàn toàn chính mình trong môi trường bệnh viện.
9. Theo dõi rủi ro hallucination
Hallucination là hiện tượng AI tạo thông tin không có căn cứ. Trong bệnh viện, cần giảm nguy cơ này bằng cách:
- Dùng RAG.
- Yêu cầu trích nguồn.
- Không cho AI tự bịa căn cứ.
- Yêu cầu trả lời “chưa tìm thấy thông tin” khi thiếu nguồn.
- Giới hạn phạm vi trả lời.
- Kiểm tra định kỳ câu trả lời.
- Thu thập lỗi hallucination.
- Cải thiện prompt và truy xuất.
Cần ghi nhận các trường hợp AI trả lời sai để huấn luyện người dùng và cải thiện hệ thống.
10. Cải tiến liên tục hệ thống AI
Lớp giám sát không chỉ để phát hiện lỗi, mà để cải tiến liên tục. Dựa trên log và phản hồi, bệnh viện có thể:
- Cập nhật tài liệu.
- Sửa metadata.
- Chia lại chunk.
- Đổi embedding model.
- Thêm reranker.
- Điều chỉnh prompt.
- Đổi model LLM.
- Tạo trợ lý riêng cho từng phòng ban.
- Đào tạo lại người dùng.
- Cập nhật quy chế sử dụng.
- Tối ưu hiệu năng máy chủ.
AI local nên được quản lý như một hệ thống chất lượng: có đo lường, có phản hồi, có phân tích nguyên nhân và có hành động cải tiến.
11. Kết luận
Lớp giám sát và đánh giá chất lượng câu trả lời là thành phần không thể thiếu trong kiến trúc AI local bệnh viện. Hệ thống AI không chỉ cần chạy được, mà cần được theo dõi về hiệu năng, độ chính xác, nguồn trích dẫn, mức độ hữu ích, an toàn thông tin và tuân thủ phạm vi chuyên môn.
Bệnh viện nên xây dựng bộ câu hỏi kiểm thử, cơ chế phản hồi người dùng, đánh giá chuyên môn định kỳ, dashboard kỹ thuật và quy trình cải tiến liên tục. Khi có lớp giám sát tốt, AI local mới có thể trở thành một công cụ đáng tin cậy, thay vì chỉ là một thử nghiệm công nghệ hấp dẫn nhưng khó kiểm soát.
- Đăng nhập để gửi ý kiến