Bài 7. AI local và yêu cầu bảo mật dữ liệu y tế

1. Đặt vấn đề

Dữ liệu y tế là một trong những loại dữ liệu nhạy cảm nhất trong xã hội. Một thông tin sức khỏe bị lộ có thể ảnh hưởng đến danh dự, quyền riêng tư, cơ hội việc làm, bảo hiểm, quan hệ xã hội và tâm lý của người bệnh. Đối với bệnh viện, bảo mật dữ liệu y tế không chỉ là yêu cầu kỹ thuật mà còn là trách nhiệm đạo đức, trách nhiệm pháp lý và điều kiện để duy trì niềm tin của người bệnh.

Khi bệnh viện ứng dụng AI, yêu cầu bảo mật càng trở nên phức tạp hơn. AI có khả năng xử lý văn bản, tóm tắt hồ sơ, phân tích dữ liệu, sinh câu trả lời và tích hợp với nhiều hệ thống. Nếu không kiểm soát tốt, AI có thể trở thành một điểm rò rỉ dữ liệu mới. Người dùng có thể vô tình nhập thông tin nhạy cảm. Hệ thống có thể lưu log chứa dữ liệu cá nhân. API có thể bị truy cập trái phép. Tài liệu nội bộ có thể bị đưa vào kho tri thức mà không phân quyền. Câu trả lời có thể tiết lộ thông tin vượt quyền.

AI local giúp bệnh viện kiểm soát dữ liệu tốt hơn so với việc gửi dữ liệu lên dịch vụ bên ngoài, nhưng AI local không tự động an toàn. Một hệ thống AI local chỉ an toàn khi được thiết kế với nguyên tắc bảo mật ngay từ đầu. Bài này phân tích mối quan hệ giữa AI local và yêu cầu bảo mật dữ liệu y tế, đồng thời làm rõ các nguyên tắc cần có khi triển khai trong bệnh viện.

2. Đặc thù của dữ liệu y tế

Dữ liệu y tế có một số đặc thù khiến việc bảo mật trở nên đặc biệt quan trọng.

Thứ nhất, dữ liệu y tế gắn trực tiếp với con người cụ thể. Không giống dữ liệu sản phẩm hay dữ liệu vận hành thông thường, dữ liệu y tế phản ánh tình trạng sức khỏe, bệnh tật, điều trị, thuốc, xét nghiệm, phẫu thuật và nhiều yếu tố riêng tư của người bệnh.

Thứ hai, dữ liệu y tế có tính nhạy cảm kéo dài. Một thông tin bệnh lý bị lộ hôm nay có thể còn ảnh hưởng nhiều năm sau. Một chẩn đoán, tiền sử bệnh, kết quả xét nghiệm hoặc thông tin điều trị có thể gây kỳ thị, lo lắng hoặc thiệt hại cho người bệnh nếu bị sử dụng sai.

Thứ ba, dữ liệu y tế thường có nhiều yếu tố nhận diện gián tiếp. Ngay cả khi xóa họ tên, vẫn có thể nhận diện người bệnh qua tuổi, giới, địa chỉ, ngày nhập viện, bệnh hiếm, khoa điều trị, bác sĩ điều trị hoặc sự kiện đặc biệt.

Thứ tư, dữ liệu y tế được sử dụng bởi nhiều nhóm nhân viên: bác sĩ, điều dưỡng, kỹ thuật viên, dược sĩ, nhân viên bảo hiểm, nhân viên tài chính, nhân viên chăm sóc khách hàng, nhân viên quản lý chất lượng, lãnh đạo khoa và lãnh đạo bệnh viện. Mỗi nhóm có nhu cầu khác nhau và không phải ai cũng nên truy cập mọi dữ liệu.

Thứ năm, dữ liệu y tế thường nằm trong nhiều hệ thống: HIS, EMR, LIS, PACS, phần mềm bảo hiểm, hệ thống khảo sát, hệ thống báo cáo sự cố, file văn bản và hồ sơ giấy số hóa. Khi AI được tích hợp, nguy cơ lan truyền dữ liệu giữa các hệ thống tăng lên nếu thiếu phân quyền.

Những đặc thù này đòi hỏi AI local phải được thiết kế theo nguyên tắc bảo mật y tế, không chỉ theo logic công nghệ thông thường.

3. AI local giúp gì cho bảo mật dữ liệu?

AI local có một số lợi thế rõ ràng trong bảo mật dữ liệu y tế.

3.1. Giữ dữ liệu trong phạm vi kiểm soát nội bộ

Khi model và hệ thống xử lý chạy trên máy chủ bệnh viện, dữ liệu có thể được xử lý trong mạng nội bộ. Điều này giúp giảm nguy cơ dữ liệu người bệnh bị gửi đến nhà cung cấp bên ngoài. Đây là lợi thế lớn so với việc nhân viên sao chép dữ liệu vào các công cụ AI cloud không được kiểm soát.

3.2. Chủ động phân quyền người dùng

Bệnh viện có thể thiết kế hệ thống AI local theo vai trò. Ví dụ, nhân viên phòng Quản lý chất lượng có thể truy cập kho tài liệu chất lượng; phòng Điều dưỡng truy cập tài liệu điều dưỡng; phòng CNTT truy cập tài liệu kỹ thuật; khoa lâm sàng chỉ truy cập tài liệu liên quan. Nếu tích hợp với dữ liệu người bệnh, quyền truy cập phải được giới hạn nghiêm ngặt theo nhiệm vụ.

3.3. Kiểm soát log và lịch sử hội thoại

AI local cho phép bệnh viện quyết định log được lưu ở đâu, lưu bao lâu, ai được xem, có mã hóa không và khi nào xóa. Đây là điểm quan trọng vì log AI có thể chứa dữ liệu nhạy cảm. Nếu không kiểm soát log, hệ thống AI có thể vô tình tạo thêm một kho dữ liệu rủi ro.

3.4. Kiểm soát tài liệu đưa vào RAG

Khi xây dựng kho tri thức nội bộ, bệnh viện có thể quyết định tài liệu nào được đưa vào hệ thống. Tài liệu công khai nội bộ, quy trình đã ban hành, biểu mẫu chuẩn, hướng dẫn đào tạo có thể được đưa vào trước. Hồ sơ bệnh án, báo cáo sự cố chi tiết hoặc dữ liệu nhạy cảm cần được cân nhắc kỹ, có ẩn danh và phân quyền rõ ràng.

3.5. Kiểm soát API và tích hợp

AI local có thể được đặt sau lớp API trung gian. Lớp này kiểm tra người dùng, giới hạn request, lọc dữ liệu, ghi log, chặn nội dung nhạy cảm và kiểm soát đầu ra. Không nên để người dùng hoặc hệ thống khác gọi trực tiếp vào Ollama hoặc model mà không có lớp kiểm soát.

4. Những rủi ro bảo mật vẫn tồn tại với AI local

Dù có lợi thế, AI local không tự động an toàn. Một số rủi ro thường gặp gồm:

4.1. Mở API trực tiếp ra Internet

Nếu dịch vụ AI local bị mở trực tiếp ra Internet mà không có xác thực, kẻ khác có thể truy cập, sử dụng tài nguyên, khai thác dữ liệu hoặc tấn công hệ thống. Đây là lỗi nghiêm trọng. Dịch vụ Ollama hoặc API model không nên được mở trực tiếp ra Internet.

4.2. Không phân quyền tài liệu

Nếu mọi người dùng đều có thể hỏi mọi tài liệu, hệ thống AI có thể tiết lộ thông tin vượt quyền. Ví dụ, nhân viên không thuộc phòng Tổ chức cán bộ có thể hỏi về tài liệu nhân sự; người không thuộc phòng Quản lý chất lượng có thể hỏi báo cáo sự cố; người không có nhiệm vụ có thể truy cập tài liệu nhạy cảm.

4.3. Log chứa dữ liệu nhạy cảm

Nhiều hệ thống AI lưu lại prompt và câu trả lời để kiểm tra chất lượng. Nếu người dùng nhập thông tin người bệnh, log sẽ chứa dữ liệu nhạy cảm. Nếu log không được bảo vệ, rủi ro lộ dữ liệu tăng lên.

4.4. Người dùng nhập dữ liệu không được phép

Ngay cả khi hệ thống local, bệnh viện vẫn cần quy định người dùng không nhập dữ liệu vượt phạm vi. Ví dụ, một chatbot hỗ trợ soạn thảo hành chính không nên được dùng để nhập toàn bộ bệnh án. Local không có nghĩa là mọi dữ liệu đều được phép đưa vào AI.

4.5. Câu trả lời tiết lộ thông tin nhạy cảm

Nếu hệ thống RAG truy xuất tài liệu không đúng quyền, model có thể tạo câu trả lời chứa thông tin người bệnh hoặc thông tin nội bộ mà người dùng không được phép biết. Vì vậy, bảo mật phải được kiểm soát trước khi đưa tài liệu vào prompt, không chỉ sau khi model trả lời.

4.6. Dữ liệu huấn luyện hoặc fine-tuning không được kiểm soát

Nếu bệnh viện dùng dữ liệu thật để fine-tune model mà không ẩn danh, dữ liệu nhạy cảm có thể bị model ghi nhớ hoặc tái hiện trong một số tình huống. Đây là rủi ro cao. Giai đoạn đầu, bệnh viện nên ưu tiên RAG thay vì fine-tuning trên dữ liệu nhạy cảm.

5. Nguyên tắc bảo mật khi triển khai AI local

Để AI local an toàn hơn trong bệnh viện, cần áp dụng một số nguyên tắc nền tảng.

5.1. Nguyên tắc tối thiểu hóa dữ liệu

Chỉ đưa vào AI lượng dữ liệu cần thiết cho mục tiêu cụ thể. Không đưa toàn bộ hồ sơ, toàn bộ cơ sở dữ liệu hoặc toàn bộ tài liệu nhạy cảm vào hệ thống nếu không cần. Càng ít dữ liệu nhạy cảm được xử lý, rủi ro càng thấp.

5.2. Nguyên tắc phân quyền theo vai trò

Người dùng chỉ được truy cập những dữ liệu phù hợp với vai trò và nhiệm vụ. Phân quyền phải được áp dụng ở lớp tài liệu, lớp API, lớp giao diện và lớp log. Không nên chỉ dựa vào lời nhắc hoặc system prompt để bảo vệ dữ liệu.

5.3. Nguyên tắc ẩn danh trước khi xử lý

Với dữ liệu người bệnh, cần ẩn danh hoặc giả danh hóa trước khi đưa vào AI nếu không thật sự cần thông tin định danh. Việc ẩn danh phải bao gồm cả định danh trực tiếp và định danh gián tiếp.

5.4. Nguyên tắc không mở trực tiếp model ra Internet

Model local nên được đặt trong mạng nội bộ. Nếu cần truy cập từ bên ngoài, phải qua VPN, reverse proxy, xác thực, giới hạn IP, HTTPS và lớp API trung gian. Không nên mở cổng Ollama trực tiếp ra Internet.

5.5. Nguyên tắc ghi log có kiểm soát

Ghi log là cần thiết để kiểm toán và cải tiến, nhưng log phải được bảo vệ. Cần quy định rõ log chứa gì, không chứa gì, lưu bao lâu, ai được xem, có mã hóa không và quy trình xóa như thế nào.

5.6. Nguyên tắc kiểm soát đầu ra

Câu trả lời của AI cần được kiểm soát để tránh tiết lộ thông tin nhạy cảm, đưa ra chỉ dẫn vượt thẩm quyền hoặc tạo nội dung sai lệch. Với các ứng dụng rủi ro cao, cần có cơ chế cảnh báo, yêu cầu trích nguồn và nhắc người dùng kiểm tra.

5.7. Nguyên tắc con người chịu trách nhiệm cuối cùng

AI chỉ hỗ trợ. Nhân viên y tế, lãnh đạo khoa, phòng chức năng và lãnh đạo bệnh viện vẫn chịu trách nhiệm với quyết định, văn bản và hành động chuyên môn. Không được giao toàn bộ quyết định y tế cho AI.

6. Phân loại dữ liệu trước khi đưa vào AI local

Một bệnh viện nên phân loại dữ liệu theo mức độ nhạy cảm trước khi triển khai AI. Có thể chia thành các nhóm:

Nhóm 1. Dữ liệu công khai

Bao gồm văn bản pháp luật công khai, hướng dẫn đã công bố, tài liệu truyền thông sức khỏe phổ biến. Nhóm này có thể dùng cho AI cloud hoặc AI local, rủi ro thấp hơn.

Nhóm 2. Tài liệu nội bộ không chứa dữ liệu cá nhân

Bao gồm quy trình, quy định, biểu mẫu, hướng dẫn sử dụng, tài liệu đào tạo nội bộ đã ban hành. Nhóm này rất phù hợp để đưa vào AI local và RAG.

Nhóm 3. Tài liệu nội bộ nhạy cảm

Bao gồm báo cáo kiểm tra, đánh giá khoa phòng, báo cáo sự cố, biên bản họp nội bộ, kế hoạch nhân sự, tài chính, đấu thầu. Nhóm này chỉ nên đưa vào AI local khi có phân quyền chặt chẽ.

Nhóm 4. Dữ liệu người bệnh đã ẩn danh

Có thể sử dụng cho phân tích, đào tạo, nghiên cứu hoặc cải tiến nếu quy trình ẩn danh đạt yêu cầu. Cần kiểm soát kỹ vì vẫn có nguy cơ tái nhận diện.

Nhóm 5. Dữ liệu người bệnh định danh

Đây là nhóm rủi ro cao nhất. Không nên đưa vào AI nếu chưa có cơ sở pháp lý, mục tiêu rõ ràng, phân quyền nghiêm ngặt, log an toàn, kiểm toán và phê duyệt của hội đồng hoặc bộ phận có thẩm quyền.

Việc phân loại này giúp bệnh viện không triển khai AI theo kiểu “đưa tất cả tài liệu vào một kho chung”, vốn rất nguy hiểm.

7. Vai trò của quy chế sử dụng AI

Bảo mật AI local không thể chỉ dựa vào kỹ thuật. Bệnh viện cần có quy chế sử dụng AI. Quy chế này nên làm rõ:

Mục đích sử dụng AI trong bệnh viện.
Nhóm người dùng được phép sử dụng.
Tác vụ được phép và không được phép.
Loại dữ liệu được phép nhập.
Loại dữ liệu bị cấm nhập.
Quy định về dữ liệu người bệnh.
Quy định về sử dụng câu trả lời AI.
Trách nhiệm kiểm tra trước khi ban hành văn bản.
Quy định về log và giám sát.
Quy trình báo cáo sự cố liên quan đến AI.
Trách nhiệm của phòng CNTT, phòng Quản lý chất lượng, các khoa phòng và lãnh đạo bệnh viện.

Quy chế giúp người dùng hiểu rằng AI là công cụ hỗ trợ có kiểm soát, không phải nơi có thể đưa mọi dữ liệu vào. Đồng thời, quy chế cũng bảo vệ bệnh viện khi triển khai AI ở quy mô lớn hơn.

8. Kết luận

AI local có ý nghĩa lớn đối với bảo mật dữ liệu y tế vì giúp bệnh viện kiểm soát nơi xử lý dữ liệu, phân quyền người dùng, quản lý log, kiểm soát tài liệu nội bộ và giảm phụ thuộc vào nền tảng bên ngoài. Tuy nhiên, AI local không tự động an toàn. Nếu cấu hình sai, phân quyền kém, log không bảo vệ hoặc người dùng nhập dữ liệu nhạy cảm tùy tiện, rủi ro vẫn rất lớn.

Triển khai AI local trong bệnh viện phải bắt đầu từ nguyên tắc bảo mật: tối thiểu hóa dữ liệu, phân quyền theo vai trò, ẩn danh khi cần, không mở model trực tiếp ra Internet, kiểm soát API, bảo vệ log, kiểm soát đầu ra và giữ con người trong vòng chịu trách nhiệm.

Bệnh viện muốn sử dụng AI an toàn không chỉ cần máy chủ và model, mà cần một hệ thống quản trị dữ liệu đầy đủ. AI local là công cụ quan trọng, nhưng bảo mật phụ thuộc vào cách bệnh viện thiết kế, vận hành và kiểm soát công cụ đó.

Đăng nhập để gửi ý kiến