Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "HI.AI Members" các nội dung bạn quan tâm.

Bài 11. Ẩn danh và tối thiểu hóa dữ liệu trước khi đưa vào AI

1. Đặt vấn đề

Ẩn danh và tối thiểu hóa dữ liệu là hai nguyên tắc nền tảng khi đưa dữ liệu bệnh viện vào AI. AI càng nhận nhiều dữ liệu nhạy cảm thì rủi ro càng cao: lộ thông tin người bệnh, lộ thông tin nhân viên, lưu dữ liệu nhạy cảm trong log, trả lời vượt quyền hoặc tạo bản sao dữ liệu ở nơi khó kiểm soát. Do đó, trước khi đưa dữ liệu vào AI, bệnh viện cần hỏi: “AI có thật sự cần dữ liệu này không?” và “Có thể ẩn danh dữ liệu này không?”.

AI local giúp dữ liệu không phải gửi ra cloud, nhưng không có nghĩa là có thể đưa mọi dữ liệu thô vào model. Bảo mật nội bộ vẫn là yêu cầu bắt buộc.

2. Tối thiểu hóa dữ liệu là gì?

Tối thiểu hóa dữ liệu nghĩa là chỉ sử dụng phần dữ liệu cần thiết cho mục đích cụ thể.

Ví dụ:

  • Phân tích thời gian chờ khám không cần tên người bệnh.
  • Phân tích phản ánh theo chủ đề không cần số điện thoại.
  • Tạo báo cáo sự cố tổng hợp không cần tên người báo cáo.
  • Nghiên cứu hồi cứu có thể dùng mã nghiên cứu thay vì mã bệnh án thật.
  • Đào tạo có thể dùng ca bệnh giả lập hoặc đã ẩn danh.

3. Ẩn danh là gì?

Ẩn danh là loại bỏ hoặc biến đổi thông tin có thể nhận diện cá nhân, để dữ liệu không còn trực tiếp gắn với một người cụ thể.

Thông tin cần ẩn danh có thể gồm:

  • Họ tên.
  • Ngày sinh đầy đủ.
  • Địa chỉ.
  • Số điện thoại.
  • CCCD.
  • Mã người bệnh.
  • Mã bệnh án.
  • Số thẻ BHYT.
  • Tên người nhà.
  • Tên nhân viên nếu không cần.
  • Hình ảnh nhận diện.
  • Mốc thời gian quá cụ thể nếu có nguy cơ nhận diện.
  • Chi tiết hiếm gặp có thể định danh gián tiếp.

4. Ẩn danh khác gì mã hóa định danh?

Ẩn danh loại bỏ khả năng nhận diện trong dữ liệu dùng cho AI. Mã hóa định danh thay thế định danh thật bằng mã. Ví dụ, “Nguyễn Văn A” thành “NB001”.

Nếu còn bảng ánh xạ NB001 với người thật, đó là dữ liệu giả danh/mã hóa định danh chứ chưa hoàn toàn ẩn danh. Bảng ánh xạ phải được bảo vệ riêng.

5. Các kỹ thuật ẩn danh cơ bản

Có thể dùng:

  • Xóa trường định danh.
  • Thay tên bằng mã.
  • Tổng hợp tuổi thành nhóm tuổi.
  • Thay ngày cụ thể bằng tháng/quý hoặc mốc tương đối.
  • Xóa địa chỉ chi tiết.
  • Xóa số điện thoại.
  • Xóa số hồ sơ.
  • Xóa tên nhân viên nếu không cần.
  • Chỉ giữ khoa/phòng nếu cần phân tích.
  • Chỉ giữ nội dung chuyên môn không định danh.

6. Ví dụ tối thiểu hóa dữ liệu

Phân tích phản ánh người bệnh

Không cần:

  • Tên người bệnh.
  • Số điện thoại.
  • Địa chỉ.
  • Số hồ sơ.

Cần:

  • Nội dung phản ánh đã ẩn danh.
  • Ngày/tháng.
  • Khoa/phòng liên quan.
  • Nhóm dịch vụ.
  • Trạng thái xử lý.

Phân tích thời gian chờ

Không cần:

  • Họ tên.
  • Số điện thoại.
  • Địa chỉ.

Cần:

  • Mốc thời gian.
  • Phòng khám.
  • Loại dịch vụ.
  • Ngày/giờ.
  • Trạng thái.

Phân tích sự cố

Không cần cho phân tích tổng hợp:

  • Tên người bệnh.
  • Tên nhân viên.
  • Số hồ sơ.

Cần:

  • Loại sự cố.
  • Mô tả đã ẩn danh.
  • Khoa/phòng.
  • Thời gian tương đối.
  • Yếu tố góp phần.
  • Hành động khắc phục.

7. Ẩn danh trước khi lưu log

Không chỉ prompt gửi vào model, log cũng cần kiểm soát. Nếu prompt đã ẩn danh nhưng log lưu bản thô trước khi ẩn danh, rủi ro vẫn còn. Quy trình đúng là:

  1. Nhận dữ liệu.
  2. Kiểm quyền.
  3. Ẩn danh/tối thiểu hóa.
  4. Ghi log phù hợp.
  5. Gửi vào AI.

Không nên lưu bản thô nếu không cần.

8. Tự động ẩn danh và kiểm tra thủ công

Có thể dùng script tự động phát hiện:

  • Số điện thoại.
  • Email.
  • Mã bệnh án.
  • Số CCCD.
  • Ngày tháng.
  • Tên riêng ở mức gợi ý.

Nhưng tiếng Việt và dữ liệu y tế phức tạp, tự động có thể bỏ sót. Với dữ liệu nhạy cảm, cần kiểm tra thủ công hoặc quy trình kiểm soát bổ sung.

9. Khi nào không nên đưa dữ liệu vào AI dù đã ẩn danh?

Không nên đưa nếu:

  • Mục đích không rõ.
  • Người dùng không có quyền.
  • Dữ liệu quá nhạy cảm.
  • Nguy cơ tái định danh cao.
  • Chưa có chính sách lưu log.
  • Chưa có người chịu trách nhiệm.
  • Chưa có cơ chế xóa.
  • Chưa đánh giá rủi ro.

Ẩn danh không phải giấy phép để dùng mọi dữ liệu.

10. Kết luận

Ẩn danh và tối thiểu hóa dữ liệu là lớp bảo vệ quan trọng khi tích hợp AI local với dữ liệu bệnh viện. Nguyên tắc là chỉ đưa vào AI dữ liệu cần thiết, loại bỏ định danh nếu không cần, bảo vệ log và kiểm tra nguy cơ tái định danh. AI local giúp kiểm soát dữ liệu tốt hơn so với cloud, nhưng vẫn phải có kỷ luật dữ liệu nghiêm túc trong nội bộ bệnh viện.