Bài 2. Dữ liệu từ văn bản, quy trình, biểu mẫu

1. Đặt vấn đề

Dữ liệu từ văn bản, quy trình và biểu mẫu là nhóm dữ liệu phù hợp nhất để khởi đầu triển khai AI local trong bệnh viện. Đây là nhóm dữ liệu có giá trị sử dụng cao, ít rủi ro hơn so với hồ sơ bệnh án, dễ tổ chức thành kho tri thức và rất phù hợp với RAG. Khi được chuẩn hóa tốt, nhóm dữ liệu này giúp chatbot trả lời các câu hỏi thường gặp của nhân viên: quy trình nào áp dụng, biểu mẫu nào dùng, bước nào cần thực hiện, ai phụ trách, lưu hồ sơ ở đâu, tiêu chí nào liên quan.

Nếu bệnh viện muốn xây dựng chatbot nội bộ có ích ngay, nên bắt đầu từ nhóm dữ liệu này.

2. Văn bản, quy trình, biểu mẫu gồm những gì?

Bao gồm:

Quy chế.
Quy định.
Quy trình.
SOP.
Hướng dẫn.
Biểu mẫu.
Bảng kiểm.
Kế hoạch.
Báo cáo mẫu.
Tờ trình mẫu.
Biên bản mẫu.
Tài liệu đào tạo.
FAQ.
Văn bản pháp luật được phép sử dụng.

3. Giá trị của nhóm dữ liệu này đối với AI

AI có thể hỗ trợ:

Tra cứu quy trình.
Tìm biểu mẫu.
Tóm tắt quy định.
Tạo checklist từ quy trình.
Giải thích quy chế bằng ngôn ngữ dễ hiểu.
Hỗ trợ nhân viên mới.
Chuẩn hóa văn bản.
Soạn thảo kế hoạch/báo cáo dựa trên mẫu.
Hỏi đáp tài liệu nội bộ.
Tạo bảng phân công từ quy trình.

4. Cần chuẩn hóa trước khi đưa vào AI

Không nên đưa toàn bộ thư mục văn bản vào RAG khi chưa làm sạch. Cần kiểm tra:

Tài liệu nào còn hiệu lực.
Tài liệu nào là bản nháp.
Tài liệu nào bị trùng.
Tài liệu nào sai phiên bản.
Tài liệu nào thiếu mã.
Tài liệu nào không có người phê duyệt.
Tài liệu nào chỉ dành cho một phòng ban.
Tài liệu nào không nên đưa vào AI.

Dữ liệu đầu vào quyết định chất lượng câu trả lời.

5. Metadata cần có

Mỗi văn bản nên có metadata:

Mã tài liệu.
Tên tài liệu.
Loại tài liệu.
Đơn vị ban hành.
Ngày ban hành.
Ngày hiệu lực.
Phiên bản.
Tình trạng hiệu lực.
Phạm vi áp dụng.
Quyền truy cập.
Tài liệu thay thế nếu có.
Link file gốc.
Từ khóa.

Nếu không có metadata, hệ thống khó lọc bản cũ và hiển thị nguồn.

6. Biểu mẫu cần được xử lý riêng

Biểu mẫu không giống văn bản thông thường. Khi đưa biểu mẫu vào AI, cần lưu:

Tên biểu mẫu.
Mã biểu mẫu.
Phiên bản.
Mục đích sử dụng.
Khi nào dùng.
Ai điền.
Ai nhận.
Các trường chính.
Quy trình liên quan.
Link tải file.

Người dùng thường cần biết “dùng mẫu nào” và “tải ở đâu”, không nhất thiết cần AI đọc toàn bộ ô trống.

7. Quy trình cần được chia theo bước

Quy trình nên được chunk theo:

Mục đích.
Phạm vi.
Trách nhiệm.
Từng bước thực hiện.
Biểu mẫu liên quan.
Hồ sơ lưu.
Giám sát/đánh giá.
Phụ lục.

Khi người dùng hỏi “bước xử lý phản ánh là gì?”, hệ thống cần truy xuất đúng phần các bước, không chỉ tên quy trình.

8. RAG cho văn bản, quy trình, biểu mẫu

Quy trình RAG:

Trích xuất text.
Làm sạch.
Gắn metadata.
Chia chunk.
Tạo embedding.
Lưu FAISS.
Khi người dùng hỏi, truy xuất chunk liên quan.
Lọc theo quyền và hiệu lực.
Đưa vào prompt.
Trả lời có nguồn.

Đây là ứng dụng RAG cốt lõi và nên triển khai sớm.

9. Rủi ro cần kiểm soát

Ngay cả nhóm dữ liệu này cũng có rủi ro:

Dùng nhầm bản cũ.
Trả lời theo bản nháp.
Trộn nhiều phiên bản.
Hiển thị tài liệu hạn chế cho người không có quyền.
AI bịa bước quy trình khi nguồn không đủ.
AI tóm tắt làm mất điều kiện quan trọng.

Do đó, vẫn cần kiểm soát nguồn và phiên bản.

10. Kết luận

Dữ liệu từ văn bản, quy trình và biểu mẫu là nền tảng tốt nhất để triển khai AI local ban đầu trong bệnh viện. Đây là nhóm dữ liệu có giá trị cao, giúp nhân viên tra cứu và làm đúng quy trình. Nhưng để AI trả lời chính xác, bệnh viện phải chuẩn hóa tài liệu, metadata, phiên bản, phân quyền và nguồn trích dẫn. Nếu làm tốt nhóm dữ liệu này, bệnh viện sẽ có nền móng vững chắc cho các tích hợp phức tạp hơn.

Đăng nhập để gửi ý kiến