Bài 9. Lớp bảo mật: phân quyền, ghi log, kiểm soát truy cập, ẩn danh dữ liệu

1. Đặt vấn đề

Bảo mật là lớp bắt buộc trong kiến trúc AI local bệnh viện. Không có bảo mật, hệ thống AI dù chạy tốt vẫn không nên triển khai rộng. Bệnh viện xử lý dữ liệu y tế, dữ liệu cá nhân, dữ liệu sự cố, dữ liệu tài chính, dữ liệu nhân sự và nhiều thông tin nội bộ nhạy cảm. Nếu AI được tích hợp vào kho dữ liệu mà thiếu phân quyền và kiểm soát truy cập, rủi ro sẽ rất lớn.

AI local giúp giảm nguy cơ gửi dữ liệu ra ngoài, nhưng không tự động an toàn. Một hệ thống local cấu hình sai vẫn có thể làm lộ dữ liệu nội bộ. Vì vậy, lớp bảo mật phải được thiết kế ngay từ đầu, bao gồm phân quyền, ghi log, kiểm soát truy cập, ẩn danh dữ liệu, bảo vệ API, bảo vệ tài liệu và kiểm soát đầu ra.

2. Phân quyền người dùng

Phân quyền là nguyên tắc cơ bản. Người dùng chỉ được truy cập những chức năng và dữ liệu phù hợp với vai trò.

Ví dụ:

Nhân viên chung có thể tra cứu quy trình công khai nội bộ.
Phòng Quản lý chất lượng có thể truy cập tài liệu chất lượng.
Lãnh đạo khoa có thể xem báo cáo khoa mình.
Phòng Tổ chức cán bộ truy cập tài liệu nhân sự.
Phòng Tài chính kế toán truy cập tài liệu tài chính.
Nhân viên không liên quan không được xem báo cáo sự cố chi tiết.

Phân quyền phải được áp dụng trước khi đưa tài liệu vào prompt. Nếu người dùng không có quyền xem tài liệu, hệ thống không được truy xuất tài liệu đó. Không thể dựa vào LLM để giữ bí mật sau khi đã đưa dữ liệu vào ngữ cảnh.

3. Kiểm soát truy cập API

API là cửa ngõ của hệ thống AI. Nếu API bị mở không kiểm soát, người khác có thể dùng tài nguyên, lấy dữ liệu hoặc tấn công hệ thống. Cần kiểm soát:

Xác thực người dùng hoặc ứng dụng.
Token API.
Giới hạn IP.
Rate limit.
HTTPS nếu có truy cập qua mạng.
Không mở trực tiếp Ollama ra Internet.
Reverse proxy có xác thực.
Ghi log request.
Kiểm soát CORS nếu tích hợp web.

Trong kiến trúc tốt, Ollama chỉ nên được API trung gian gọi. Người dùng không nên gọi thẳng vào Ollama.

4. Ghi log

Log giúp truy vết, đánh giá chất lượng và phát hiện lạm dụng. Tuy nhiên, log cũng có thể chứa dữ liệu nhạy cảm. Cần thiết kế log cẩn thận.

Có thể ghi:

Người dùng.
Thời gian.
Phòng ban.
Tác vụ.
Model sử dụng.
Tài liệu được truy xuất.
Thời gian phản hồi.
Trạng thái lỗi.
Đánh giá của người dùng.

Cần thận trọng khi ghi toàn bộ câu hỏi và câu trả lời, vì có thể chứa thông tin người bệnh hoặc dữ liệu nội bộ. Nếu ghi, phải bảo vệ log, giới hạn người xem, có chính sách lưu trữ và xóa.

5. Ẩn danh dữ liệu

Ẩn danh hoặc giả danh hóa dữ liệu là bước quan trọng khi xử lý dữ liệu người bệnh hoặc sự cố nhạy cảm. Không nên đưa tên, số hồ sơ, số điện thoại, địa chỉ, mã định danh hoặc chi tiết có thể nhận diện vào AI nếu không cần.

Ẩn danh không chỉ là xóa họ tên. Cần xem xét cả định danh gián tiếp:

Tuổi hiếm gặp.
Địa chỉ cụ thể.
Ngày giờ sự kiện.
Bệnh hiếm.
Khoa phòng đặc biệt.
Tên bác sĩ.
Tên người nhà.
Số giường.
Mã hồ sơ.
Chi tiết sự kiện dễ nhận diện.

Trong nhiều trường hợp, nên xử lý dữ liệu ở mức tổng hợp thay vì từng cá nhân.

6. Kiểm soát dữ liệu đầu vào

Người dùng có thể vô tình nhập dữ liệu không phù hợp. Hệ thống nên có cảnh báo và bộ lọc:

Nhắc không nhập dữ liệu định danh người bệnh.
Phát hiện số điện thoại, mã hồ sơ, căn cước nếu có thể.
Cảnh báo khi người dùng nhập nội dung nhạy cảm.
Chặn một số loại dữ liệu với chatbot rủi ro thấp.
Hướng dẫn ẩn danh trước khi gửi.

Kiểm soát đầu vào giúp giảm rủi ro từ hành vi người dùng.

7. Kiểm soát đầu ra

AI có thể trả lời vượt phạm vi hoặc tiết lộ thông tin nhạy cảm nếu truy xuất sai. Cần kiểm soát đầu ra:

Không trả lời nếu không có nguồn phù hợp.
Không đưa ra chẩn đoán hoặc điều trị thay bác sĩ.
Không tiết lộ dữ liệu vượt quyền.
Cảnh báo nội dung chỉ mang tính hỗ trợ.
Yêu cầu người dùng kiểm tra tài liệu gốc.
Gắn nguồn trích dẫn.
Lọc thông tin định danh nếu cần.

Đối với tác vụ rủi ro cao, có thể yêu cầu con người duyệt trước khi nội dung được sử dụng.

8. Bảo vệ kho tài liệu và FAISS index

Kho tài liệu và chỉ mục vector cũng cần được bảo vệ. Nhiều người nghĩ FAISS chỉ chứa vector nên không nhạy cảm. Thực tế, vector và metadata có thể liên kết ngược đến nội dung tài liệu. Metadata có thể chứa tên tài liệu nhạy cảm. Vì vậy, cần bảo vệ:

File gốc.
Chunk text.
Metadata.
FAISS index.
Backup.
Log truy xuất.
Database phân quyền.

Không nên lưu kho tài liệu AI ở nơi mọi người có thể truy cập tùy tiện.

9. Chính sách bảo mật và quy chế sử dụng

Bảo mật không chỉ là kỹ thuật. Bệnh viện cần quy chế sử dụng AI:

Ai được dùng AI?
Dùng vào việc gì?
Dữ liệu nào được nhập?
Dữ liệu nào bị cấm?
Khi nào phải ẩn danh?
Ai chịu trách nhiệm câu trả lời?
Log lưu bao lâu?
Ai được xem log?
Xử lý sự cố AI thế nào?
Có được dùng AI cloud không?
Khi nào cần phê duyệt chuyên môn?

Quy chế giúp biến các nguyên tắc bảo mật thành hành vi cụ thể.

10. Kết luận

Lớp bảo mật là điều kiện bắt buộc để AI local bệnh viện vận hành an toàn. Phân quyền, kiểm soát API, ghi log, ẩn danh dữ liệu, kiểm soát đầu vào, kiểm soát đầu ra và bảo vệ kho tài liệu phải được thiết kế từ đầu.

AI local giúp bệnh viện chủ động hơn về dữ liệu, nhưng chỉ an toàn khi được quản trị đúng. Một hệ thống AI local không có bảo mật đầy đủ có thể nguy hiểm không kém, thậm chí nguy hiểm hơn, vì người dùng có thể tin rằng “chạy nội bộ là an toàn” và đưa vào nhiều dữ liệu nhạy cảm hơn.

Đăng nhập để gửi ý kiến