Bài 8. Kiểm soát dữ liệu đầu vào và đầu ra

1. Đặt vấn đề

Trong hệ thống AI, dữ liệu đầu vào quyết định phần lớn rủi ro. Người dùng có thể nhập bệnh án, kết quả xét nghiệm, phản ánh người bệnh, báo cáo sự cố, dữ liệu nhân sự, tài chính, mật khẩu hoặc thông tin vượt quyền. Nếu hệ thống không kiểm soát đầu vào, model sẽ xử lý dữ liệu nhạy cảm mà không có bảo vệ. Dữ liệu đầu ra cũng cần kiểm soát vì AI có thể trả lời sai, bịa, lộ dữ liệu hoặc vượt thẩm quyền.

Kiểm soát đầu vào và đầu ra là lớp bảo vệ quan trọng giữa người dùng và model.

2. Kiểm soát đầu vào là gì?

Kiểm soát đầu vào gồm:

Kiểm tra người dùng có quyền dùng chức năng không.
Kiểm tra prompt có dữ liệu nhạy cảm không.
Giới hạn độ dài prompt.
Kiểm tra file upload.
Chặn loại file nguy hiểm.
Ẩn danh dữ liệu nếu cần.
Phân loại ý định câu hỏi.
Chặn yêu cầu vượt thẩm quyền.
Chặn yêu cầu bịa số liệu/căn cứ.
Chặn dữ liệu không được phép đưa vào chatbot chung.

3. Kiểm soát đầu vào theo loại chatbot

Chatbot chung

Không cho nhập bệnh án, thông tin định danh, dữ liệu sự cố chi tiết.

Chatbot QLCL

Có thể xử lý phản ánh/sự cố đã ẩn danh và có phân quyền.

Chatbot lãnh đạo

Có thể xử lý báo cáo tổng hợp, nhưng cần nguồn và phân quyền.

Chatbot chuyên môn

Chỉ tra cứu tài liệu chuyên môn, không nhận yêu cầu chẩn đoán/kê đơn.

Chatbot CNTT

Không nhận mật khẩu, token, private key; cảnh báo trước lệnh nguy hiểm.

4. Phát hiện dữ liệu nhạy cảm trong input

Có thể phát hiện tự động:

Số điện thoại.
Email.
CCCD.
Mã bệnh án.
Số thẻ BHYT.
Tên người bệnh nếu có danh mục.
Từ khóa như “bệnh án”, “kết quả xét nghiệm của bệnh nhân...”.
Token/private key.
File có định dạng nhạy cảm.

Tự động phát hiện không hoàn hảo, nhưng giúp giảm rủi ro.

5. Kiểm soát file upload

Nếu cho upload file, cần:

Giới hạn loại file.
Giới hạn dung lượng.
Quét virus nếu có.
Kiểm tra nội dung nhạy cảm.
Xác định mục đích.
Không lưu file lâu hơn cần thiết.
Không đưa file vào RAG chung nếu chưa duyệt.
Không cho upload dữ liệu bệnh án vào chatbot thường.

6. Kiểm soát đầu ra là gì?

Kiểm soát đầu ra gồm:

Kiểm tra câu trả lời có nguồn không.
Kiểm tra có dữ liệu định danh không.
Kiểm tra có vượt chuyên môn không.
Kiểm tra có bịa số liệu/căn cứ không.
Thêm cảnh báo giới hạn.
Không hiển thị nội dung vượt quyền.
Không streaming với tác vụ cần kiểm duyệt trước.
Lưu hoặc không lưu response theo chính sách.

7. Kiểm soát câu trả lời thiếu nguồn

Nếu câu hỏi cần căn cứ mà AI không có nguồn, hệ thống nên yêu cầu AI nói:

“Chưa đủ căn cứ từ tài liệu hiện có.”

Không nên để AI trả lời chung chung nhưng trình bày như quy định chính thức.

8. Kiểm soát trả lời chuyên môn

Với câu hỏi chuyên môn, response cần có giới hạn:

Không thay thế quyết định của nhân viên y tế.
Cần kiểm tra tài liệu gốc.
Với ca bệnh cụ thể, cần người có thẩm quyền đánh giá.
Không tự kê đơn/chẩn đoán.

Có thể chặn một số intent nguy hiểm.

9. Kiểm soát response chứa dữ liệu nhạy cảm

Nếu response chứa tên người bệnh, số hồ sơ, số điện thoại, dữ liệu nhân sự hoặc tài chính, cần kiểm tra:

Người dùng có quyền không?
Có cần hiển thị không?
Có nên che bớt không?
Có được lưu log không?
Có được tải xuống không?

10. Cơ chế feedback

Người dùng cần có nút báo:

Sai.
Thiếu nguồn.
Lộ dữ liệu.
Vượt thẩm quyền.
Không phù hợp.
Cần cập nhật tài liệu.

Feedback là một phần kiểm soát sau trả lời.

11. Kết luận

Kiểm soát dữ liệu đầu vào và đầu ra là yêu cầu thiết yếu khi dùng AI local trong bệnh viện. Không thể cho người dùng gửi mọi dữ liệu vào model và nhận mọi câu trả lời không kiểm soát. Hệ thống cần phát hiện dữ liệu nhạy cảm, giới hạn chức năng, kiểm tra file, kiểm soát nguồn, chặn câu trả lời vượt thẩm quyền và có cơ chế báo lỗi. AI an toàn là AI được kiểm soát ở cả hai chiều: trước khi model xử lý và sau khi model trả lời.

Đăng nhập để gửi ý kiến