Bài 10. Đánh giá tốc độ, độ chính xác và mức độ hữu ích

1. Đặt vấn đề

Tối ưu Ollama trong bệnh viện không thể chỉ nhìn vào tốc độ. Một model trả lời rất nhanh nhưng sai, bịa hoặc không hữu ích thì không nên dùng. Ngược lại, một model trả lời rất tốt nhưng quá chậm, khiến người dùng không thể dùng trong công việc hằng ngày, cũng không phù hợp làm model mặc định. Vì vậy, cần đánh giá đồng thời ba yếu tố: tốc độ, độ chính xác và mức độ hữu ích.

Ba yếu tố này thường có sự đánh đổi. Model lớn có thể chính xác hơn nhưng chậm hơn. Prompt dài có thể an toàn hơn nhưng chậm hơn. RAG nhiều nguồn có thể đầy đủ hơn nhưng tăng thời gian phản hồi và nhiễu hơn. Tối ưu hệ thống là tìm điểm cân bằng phù hợp với từng tác vụ bệnh viện.

2. Tốc độ

Tốc độ gồm nhiều chỉ số:

Thời gian đến token đầu tiên.
Tổng thời gian trả lời.
Token/giây.
Thời gian truy xuất RAG.
Thời gian embedding câu hỏi.
Thời gian chờ hàng đợi.
Tỷ lệ timeout.
Tốc độ khi nhiều người dùng.

Với chatbot tương tác, thời gian đến token đầu tiên rất quan trọng. Với tác vụ viết báo cáo dài, tổng thời gian có thể dài hơn nhưng cần ổn định.

3. Độ chính xác

Độ chính xác trong bệnh viện không chỉ là đúng ngữ pháp. Cần xem:

Có đúng tài liệu nguồn không?
Có bám quy trình không?
Có đúng số liệu được cung cấp không?
Có bịa căn cứ không?
Có bỏ sót điều kiện quan trọng không?
Có hiểu đúng câu hỏi không?
Có trích dẫn nguồn đúng không?
Có biết nói “chưa đủ căn cứ” không?
Có tránh vượt thẩm quyền chuyên môn không?

Đặc biệt với RAG, độ chính xác phụ thuộc cả retrieval và generation.

4. Mức độ hữu ích

Một câu trả lời có thể đúng nhưng chưa hữu ích. Hữu ích nghĩa là người dùng có thể áp dụng vào công việc. Ví dụ:

Bảng kiểm có câu hỏi cụ thể, quan sát được.
Kế hoạch có phân công, tiến độ, chỉ số.
Báo cáo có kết quả, tồn tại, nguyên nhân, giải pháp.
Tóm tắt có ý chính và nguồn.
Hướng dẫn người bệnh dễ hiểu.
Phân tích dữ liệu có khuyến nghị kiểm tra thêm.
Trợ lý CNTT có lệnh an toàn và cảnh báo.

Mức độ hữu ích cần người dùng thực tế đánh giá.

5. Ma trận đánh giá

Có thể dùng ma trận:

Tiêu chí	Câu hỏi đánh giá
Tốc độ	Có đủ nhanh cho tác vụ không?
Chính xác	Có đúng nguồn, đúng dữ liệu không?
Hữu ích	Người dùng có dùng được ngay không?
An toàn	Có vượt thẩm quyền/lộ dữ liệu không?
Ổn định	Có lỗi khi nhiều người dùng không?
Dễ kiểm tra	Có nguồn và cấu trúc rõ không?

6. Đánh giá theo từng tác vụ

Không nên đánh giá chung chung. Ví dụ:

Tra cứu quy trình

Ưu tiên: chính xác, có nguồn, nhanh.

Viết báo cáo

Ưu tiên: cấu trúc tốt, không bịa số liệu, văn phong phù hợp.

Tạo bảng kiểm

Ưu tiên: câu hỏi cụ thể, quan sát được, không quá dài.

Phân tích sự cố

Ưu tiên: an toàn, không đổ lỗi, gợi ý câu hỏi điều tra.

Hỗ trợ CNTT

Ưu tiên: đúng lệnh, an toàn, có cảnh báo, có rollback.

Chatbot người bệnh

Ưu tiên: dễ hiểu, không tư vấn vượt thẩm quyền, nguồn đã duyệt.

7. Điểm cân bằng

Có thể chọn model khác nhau:

Model nhanh cho tác vụ thường ngày.
Model chính xác hơn cho RAG quan trọng.
Model mạnh cho phân tích sâu.
Tác vụ nhạy cảm cần prompt kiểm soát hơn, chấp nhận chậm hơn.
Tác vụ batch có thể chạy ngoài giờ.

Không nên ép một cấu hình phục vụ mọi nhu cầu.

8. Đánh giá bằng người dùng thực tế

Cần mời:

Phòng QLCL.
KHTH.
Điều dưỡng.
CNTT.
Khoa lâm sàng.
CSKH.
Lãnh đạo khoa/phòng.

Họ đánh giá câu trả lời có dùng được không. Phòng CNTT đo tốc độ; phòng nghiệp vụ đánh giá hữu ích; lãnh đạo đánh giá giá trị quản trị.

9. Vòng cải tiến

Sau đánh giá:

Xác định lỗi.
Phân loại lỗi do model, prompt, RAG, dữ liệu hay giao diện.
Sửa prompt.
Sửa chunk/RAG.
Đổi model nếu cần.
Điều chỉnh context.
Điều chỉnh hàng đợi.
Test lại.
Triển khai.
Tiếp tục lấy feedback.

Tối ưu AI là quá trình liên tục, không phải làm một lần.

10. Kết luận

Đánh giá hiệu năng Ollama trong bệnh viện phải cân bằng tốc độ, độ chính xác và mức độ hữu ích. Tốc độ giúp người dùng chấp nhận hệ thống; độ chính xác giúp hệ thống đáng tin; mức độ hữu ích giúp AI tạo giá trị thật trong công việc. Một hệ thống AI local tốt không nhất thiết dùng model lớn nhất, mà là hệ thống chọn đúng model, đúng prompt, đúng dữ liệu, đúng context và đúng quy trình cho từng tác vụ bệnh viện.

Đăng nhập để gửi ý kiến