Bài 10. Model dùng cho embedding và tìm kiếm ngữ nghĩa

1. Đặt vấn đề

Trong hệ thống AI local bệnh viện, model sinh văn bản thường được chú ý nhiều nhất. Tuy nhiên, nếu bệnh viện muốn xây dựng RAG để hỏi đáp kho tài liệu nội bộ, embedding model là thành phần bắt buộc. Embedding model quyết định hệ thống có tìm đúng tài liệu hay không. Nếu embedding kém, LLM sẽ nhận sai nguồn và trả lời sai, dù LLM rất mạnh.

Vì vậy, chọn embedding model là một quyết định kỹ thuật quan trọng không kém chọn LLM.

2. Embedding model là gì?

Embedding model chuyển văn bản thành vector số học. Vector này biểu diễn ý nghĩa của văn bản. Khi câu hỏi và đoạn tài liệu có ý nghĩa gần nhau, vector của chúng sẽ gần nhau. Hệ thống dùng FAISS hoặc vector database để tìm các vector gần nhất.

Embedding model không sinh câu trả lời dài. Nó phục vụ tìm kiếm ngữ nghĩa.

3. Vai trò trong bệnh viện

Embedding model giúp:

Tìm quy trình liên quan.
Tìm biểu mẫu phù hợp.
Tìm điều khoản văn bản.
Tìm hướng dẫn chuyên môn.
Tìm tiêu chí chất lượng.
Tìm phản ánh tương tự.
Tìm tài liệu đào tạo.
Phát hiện tài liệu trùng lặp.
Phân nhóm nội dung.

Đây là nền tảng của RAG bệnh viện.

4. Tiêu chí chọn embedding model

Embedding model cần:

Hỗ trợ tiếng Việt tốt.
Hiểu văn bản hành chính và chuyên môn.
Tạo vector ổn định.
Tốc độ tạo embedding chấp nhận được.
Kích thước vector phù hợp.
Dễ tích hợp với FAISS.
Có giấy phép phù hợp.
Hoạt động ổn định local.
Tìm đúng tài liệu trên bộ test bệnh viện.

Không nhất thiết embedding model lớn nhất là tốt nhất. Cần đo chất lượng truy xuất.

5. Kiểm tra bằng bộ câu hỏi truy xuất

Bệnh viện nên xây bộ câu hỏi có tài liệu đúng mong đợi. Ví dụ:

“Quy trình xử lý người bệnh té ngã” → phải tìm quy trình té ngã.
“Mẫu báo cáo sự cố y khoa” → phải tìm biểu mẫu liên quan.
“Kế hoạch cải tiến chất lượng cần những phần nào?” → tìm tài liệu kế hoạch/mẫu.
“Quy định về phân quyền HIS” → tìm quy định CNTT.
“Tiêu chí liên quan hài lòng người bệnh” → tìm tiêu chí tương ứng.

Đánh giá embedding bằng top-k retrieval: tài liệu đúng có nằm trong top 3, top 5, top 10 không.

6. Tiếng Việt và từ đồng nghĩa

Embedding model tốt cần hiểu các cặp tương đương:

Người bệnh / bệnh nhân.
Té ngã / ngã.
Phản ánh / khiếu nại / góp ý.
Quy trình / SOP.
Kiểm soát nhiễm khuẩn / KSNK.
Quản lý chất lượng / QLCL.
Bảo hiểm y tế / BHYT.

Nếu model không hiểu, hệ thống tìm kiếm sẽ kém.

7. Chunking ảnh hưởng đến embedding

Embedding tốt vẫn có thể truy xuất kém nếu chunking sai. Chunk nên đủ ngữ cảnh, có tiêu đề, không quá dài, không quá ngắn. Với tài liệu bệnh viện, nên chia theo mục, bước, điều khoản, biểu mẫu thay vì cắt tùy tiện.

8. Embedding và hybrid search

Embedding tìm theo ý nghĩa, nhưng trong bệnh viện vẫn cần tìm theo từ khóa như số văn bản, mã biểu mẫu, mã tiêu chí. Vì vậy, hệ thống tốt nên kết hợp embedding search với keyword search.

Embedding model không thay thế hoàn toàn tìm kiếm từ khóa.

9. Tốc độ tạo embedding

Khi nhập kho tài liệu lớn, tốc độ tạo embedding quan trọng. Có thể cần xử lý hàng nghìn file. Model embedding quá chậm sẽ làm cập nhật chỉ mục mất thời gian. Tuy nhiên, đây thường là tác vụ nền, không quá ảnh hưởng người dùng nếu thiết kế tốt.

10. Kết luận

Embedding model là nền tảng của tìm kiếm ngữ nghĩa và RAG trong bệnh viện. Chọn embedding model phải dựa trên chất lượng truy xuất tài liệu tiếng Việt thực tế, không dựa vào cảm giác. Một hệ thống AI local muốn trả lời có căn cứ phải tìm đúng tài liệu trước khi sinh câu trả lời, và embedding model chính là thành phần giúp làm việc đó.

Đăng nhập để gửi ý kiến