Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "HI.AI Members" các nội dung bạn quan tâm.

Bài 5. Làm sạch và chuẩn hóa dữ liệu

1. Đặt vấn đề

Sau khi thu thập tài liệu, bước tiếp theo là làm sạch và chuẩn hóa dữ liệu. Đây là bước thường bị đánh giá thấp nhưng ảnh hưởng trực tiếp đến chất lượng RAG. Model embedding và FAISS không hiểu “file đẹp” hay “file xấu” như con người. Chúng xử lý văn bản được trích xuất. Nếu văn bản trích xuất bị lỗi, thiếu tiêu đề, lẫn header/footer, sai ký tự, mất bảng, nhảy dòng lung tung, chứa bản nháp hoặc thông tin rác, kết quả truy xuất sẽ kém.

Trong bệnh viện, nhiều tài liệu được soạn bằng Word, xuất PDF, scan lại, chỉnh sửa nhiều lần, có header/footer, số trang, mã biểu mẫu, chữ ký, bảng biểu, phụ lục. Nếu không làm sạch, RAG sẽ gặp nhiều nhiễu.

2. Làm sạch dữ liệu là gì?

Làm sạch dữ liệu là quá trình biến tài liệu thô thành văn bản có cấu trúc, dễ lập chỉ mục và dễ truy xuất. Bao gồm:

  • Trích xuất text.
  • Sửa lỗi encoding.
  • Loại bỏ nội dung rác.
  • Giữ tiêu đề quan trọng.
  • Chuẩn hóa khoảng trắng.
  • Chuẩn hóa xuống dòng.
  • Xử lý bảng.
  • Tách phụ lục.
  • Gắn metadata.
  • Loại bỏ bản trùng.
  • Đánh dấu bản hiệu lực.

3. Các lỗi thường gặp trong tài liệu bệnh viện

3.1. Lỗi OCR

Tài liệu scan có thể nhận sai chữ, mất dấu tiếng Việt, sai số văn bản.

3.2. Lỗi xuống dòng

Mỗi dòng trong PDF bị cắt ngắn, làm câu bị đứt.

3.3. Header/footer lặp lại

Tên bệnh viện, số trang, mã tài liệu xuất hiện ở mọi trang, làm nhiễu embedding.

3.4. Bảng bị vỡ

Bảng trong Word/PDF khi trích xuất thành text có thể mất cột, sai thứ tự.

3.5. Nhiều bản trùng

Cùng một tài liệu có bản Word, PDF, bản nháp, bản ký.

3.6. Thiếu dấu tiếng Việt

Một số file cũ bị lỗi font.

3.7. Lẫn nội dung không cần thiết

Chữ ký, nơi nhận, watermark, ghi chú chỉnh sửa, comment.

4. Nguyên tắc làm sạch

4.1. Không làm mất ý nghĩa chuyên môn

Làm sạch không được xóa nhầm nội dung quan trọng. Ví dụ, xóa header là tốt, nhưng xóa mã biểu mẫu hoặc phiên bản có thể gây mất nguồn.

4.2. Giữ cấu trúc tiêu đề

Tiêu đề chương, mục, điều, khoản, bước quy trình rất quan trọng cho RAG. Không nên biến tài liệu thành một khối text phẳng.

4.3. Giữ metadata

Tên tài liệu, mã, phiên bản, ngày ban hành, đơn vị ban hành, phạm vi áp dụng cần được lưu.

4.4. Chuẩn hóa nhưng không tự ý sửa nội dung pháp lý/chuyên môn

Không được tự sửa câu chữ trong quy trình hoặc văn bản pháp luật theo ý chủ quan nếu mục tiêu là tra cứu chính xác.

5. Chuẩn hóa tên tài liệu

Nên đặt tên nhất quán:

 
[Loại tài liệu] - [Tên tài liệu] - [Mã] - [Phiên bản] - [Ngày ban hành]
 

Ví dụ:

 
Quy trình - Báo cáo sự cố y khoa - QT.QLCL.01 - v2 - 2026-01-15
 

Tên file rõ giúp quản lý và hiển thị nguồn tốt hơn.

6. Chuẩn hóa metadata

Metadata nên có schema thống nhất:

  • document_id
  • title
  • document_type
  • department
  • version
  • issued_date
  • effective_date
  • status
  • permission_group
  • source_path
  • source_url
  • language
  • tags

Metadata phải được lưu cùng với chunk.

7. Xử lý bảng

Bảng rất phổ biến trong tài liệu bệnh viện: bảng kiểm, phân công, tiến độ, chỉ số, biểu mẫu. Nếu bảng quan trọng, cần chuyển thành text có cấu trúc.

Ví dụ bảng tiến độ có thể chuyển thành:

 
Hoạt động: Tập huấn 5S
Đơn vị phụ trách: Phòng QLCL
Thời gian: Tháng 3
Kết quả mong đợi: 100% khoa được tập huấn
 

Nếu để bảng vỡ dòng, embedding có thể không hiểu.

8. Xử lý biểu mẫu

Biểu mẫu có nhiều ô trống. Không nhất thiết đưa toàn bộ ô trống vào embedding. Nên trích:

  • Tên biểu mẫu.
  • Mã biểu mẫu.
  • Mục đích.
  • Khi sử dụng.
  • Các trường chính.
  • Quy trình liên quan.
  • Link tải.

9. Xử lý văn bản pháp luật

Không nên tự viết lại văn bản pháp luật. Cần giữ nguyên điều khoản, nhưng có thể tách theo điều, khoản, điểm. Metadata hiệu lực rất quan trọng.

10. Kiểm tra sau làm sạch

Cần kiểm tra mẫu:

  • Text có đọc được không?
  • Tiêu đề còn không?
  • Bảng có bị hỏng không?
  • Có mất thông tin phiên bản không?
  • Header/footer đã loại bỏ chưa?
  • Tiếng Việt có lỗi không?
  • Có lẫn bản nháp không?

Không nên tự động đưa toàn bộ dữ liệu vào index mà không kiểm tra.

11. Kết luận

Làm sạch và chuẩn hóa dữ liệu là bước nền tảng của RAG. Tài liệu sạch giúp embedding chính xác hơn, FAISS truy xuất tốt hơn và Ollama trả lời đúng hơn. Trong bệnh viện, làm sạch phải giữ cấu trúc, metadata, phiên bản và ý nghĩa chuyên môn. RAG không thể tốt nếu dữ liệu đầu vào rác; ngược lại, dữ liệu được chuẩn hóa tốt sẽ làm tăng chất lượng toàn bộ hệ thống AI local.