Bài 12. Không đưa dữ liệu nhạy cảm trực tiếp vào model khi chưa kiểm soát

1. Đặt vấn đề

Một sai lầm thường gặp khi triển khai AI local là nghĩ rằng vì model chạy trong bệnh viện nên có thể đưa mọi dữ liệu nhạy cảm trực tiếp vào prompt. Đây là cách nghĩ nguy hiểm. AI local giảm rủi ro truyền dữ liệu ra bên ngoài, nhưng vẫn còn nhiều rủi ro nội bộ: người dùng không có quyền, log lưu prompt, response chứa thông tin nhạy cảm, dữ liệu bị sao chép, API bị gọi sai, model trả lời lộ thông tin hoặc kết quả AI được chia sẻ không kiểm soát.

Vì vậy, nguyên tắc quan trọng là: không đưa dữ liệu nhạy cảm trực tiếp vào model khi chưa có cơ chế kiểm soát đầy đủ.

2. Dữ liệu nhạy cảm gồm những gì?

Trong bệnh viện, dữ liệu nhạy cảm gồm:

Thông tin định danh người bệnh.
Hồ sơ bệnh án.
Kết quả xét nghiệm cá nhân.
Hình ảnh y tế.
Đơn thuốc.
Chẩn đoán.
Thông tin tài chính người bệnh.
Thông tin BHYT.
Báo cáo sự cố y khoa chi tiết.
Phản ánh/khiếu nại có định danh.
Dữ liệu nhân sự.
Dữ liệu tài chính kế toán.
Hợp đồng, giá thầu, mua sắm.
Tài khoản, mật khẩu, token, private key.
Sơ đồ hệ thống nhạy cảm.
Dữ liệu chiến lược nội bộ.

3. “Trực tiếp vào model” nghĩa là gì?

Là đưa nguyên văn dữ liệu thô vào prompt hoặc context cho model xử lý, ví dụ:

Copy bệnh án đầy đủ vào chatbot.
Gửi file Excel có danh sách người bệnh định danh.
Gửi kết quả xét nghiệm kèm họ tên.
Gửi báo cáo sự cố có tên nhân viên/người bệnh.
Gửi log hệ thống chứa token.
Gửi bảng lương nhân viên.
Gửi hợp đồng mua sắm nhạy cảm.

Dù model chạy local, các nội dung này vẫn có thể bị lưu, hiển thị hoặc dùng sai.

4. Những điều kiện cần có trước khi xử lý dữ liệu nhạy cảm

Cần có:

Mục đích sử dụng rõ.
Người dùng có quyền.
Dữ liệu tối thiểu.
Ẩn danh nếu có thể.
API trung gian kiểm soát.
Log phù hợp.
Chính sách lưu/xóa prompt và response.
Kiểm soát đầu ra.
Không cho truy cập trực tiếp Ollama.
Cảnh báo trên giao diện.
Người chịu trách nhiệm phê duyệt.
Đánh giá rủi ro.

Nếu chưa có các điều kiện này, không nên xử lý dữ liệu nhạy cảm bằng AI.

5. Vì sao system prompt không đủ bảo vệ dữ liệu?

Có thể viết system prompt: “Không tiết lộ dữ liệu nhạy cảm.” Nhưng nếu dữ liệu đã đưa vào prompt, model vẫn có thể vô tình nhắc lại. Người dùng cũng có thể hỏi vòng. Hơn nữa, dữ liệu có thể đã nằm trong log hoặc lịch sử hội thoại.

Bảo vệ dữ liệu phải thực hiện trước khi dữ liệu vào model, bằng phân quyền, lọc, ẩn danh và tối thiểu hóa.

6. Không dùng chatbot chung để xử lý dữ liệu nhạy cảm

Chatbot chung cho nhân viên không nên nhận:

Bệnh án.
Danh sách người bệnh.
Báo cáo sự cố chi tiết.
Dữ liệu tài chính.
Dữ liệu nhân sự.
Log chứa bí mật.

Nếu cần xử lý, phải có module chuyên biệt, phân quyền riêng và quy trình riêng.

7. Không đưa dữ liệu nhạy cảm vào RAG chung

Kho RAG chung nên chứa tài liệu công khai nội bộ hoặc tài liệu theo quyền rõ. Không nên đưa dữ liệu bệnh án, sự cố chi tiết, nhân sự, tài chính vào cùng index chung nếu chưa có thiết kế phân quyền rất chắc.

Với dữ liệu nhạy cảm, có thể cần:

Index riêng.
Quyền riêng.
Mã hóa.
Log riêng.
Không hiển thị nguồn vượt quyền.
Không dùng cho người dùng chung.

8. Không lưu prompt/response nhạy cảm tùy tiện

Nếu prompt chứa dữ liệu nhạy cảm, response cũng có thể nhạy cảm. Cần quyết định:

Có lưu không?
Lưu bao lâu?
Ai xem được?
Có mã hóa không?
Có đưa vào backup không?
Có xóa theo yêu cầu không?
Có dùng để cải tiến model không?

Không nên mặc định lưu toàn bộ hội thoại chứa dữ liệu nhạy cảm.

9. Kiểm soát đầu ra

Ngay cả khi đầu vào đã kiểm soát, response vẫn cần xem:

Có chứa thông tin định danh không?
Có kết luận vượt thẩm quyền không?
Có bịa thông tin không?
Có trả lời dữ liệu vượt quyền không?
Có khuyến nghị chuyên môn nguy hiểm không?
Có nguồn không?

Với dữ liệu nhạy cảm, không nên streaming trực tiếp nếu cần kiểm duyệt trước.

10. Ví dụ cách xử lý đúng

Trường hợp phân tích phản ánh

Không đưa nguyên văn phản ánh có tên/số điện thoại. Trước tiên ẩn danh, sau đó AI phân loại chủ đề.

Trường hợp phân tích sự cố

Không đưa báo cáo sự cố đầy đủ vào chatbot chung. Dùng module sự cố, người có quyền, dữ liệu ẩn danh, log riêng.

Trường hợp nghiên cứu bệnh án

Không đưa danh sách bệnh án định danh. Dùng dữ liệu đã ẩn danh, biến số cần thiết, phê duyệt nghiên cứu nếu cần.

Trường hợp log CNTT

Không đưa log chứa token/private key. Trước tiên lọc bí mật, sau đó mới nhờ AI phân tích.

11. Kết luận

Không đưa dữ liệu nhạy cảm trực tiếp vào model khi chưa kiểm soát là nguyên tắc sống còn trong triển khai AI local bệnh viện. Local không đồng nghĩa với tự do dùng dữ liệu. Trước khi dữ liệu vào AI, phải có mục đích rõ, phân quyền, tối thiểu hóa, ẩn danh, log, kiểm soát đầu ra và chính sách lưu trữ. Một hệ thống AI an toàn là hệ thống kiểm soát dữ liệu trước khi model nhìn thấy dữ liệu, không phải hệ thống chỉ hy vọng model sẽ tự giữ bí mật.

Đăng nhập để gửi ý kiến