Bài 3. Các nhóm model thường dùng: LLM, embedding model, reranker, vision model

1. Đặt vấn đề

Khi mới tiếp cận AI local, nhiều người thường nghĩ chỉ cần một model ngôn ngữ lớn là đủ. Thực tế, một hệ thống AI local hoàn chỉnh trong bệnh viện thường cần nhiều loại model khác nhau, mỗi loại đảm nhiệm một chức năng riêng. Nếu chỉ dùng một LLM để trả lời tất cả câu hỏi, hệ thống có thể hoạt động được ở mức cơ bản, nhưng khó đạt chất lượng cao khi cần tra cứu tài liệu nội bộ, sắp xếp kết quả chính xác hoặc xử lý hình ảnh.

Trong hệ thống AI bệnh viện, bốn nhóm model thường gặp là: LLM, embedding model, reranker và vision model. Hiểu vai trò của từng nhóm giúp bệnh viện thiết kế kiến trúc đúng hơn, chọn công cụ phù hợp hơn và tránh kỳ vọng sai.

2. LLM: model sinh ngôn ngữ và hội thoại

LLM là nhóm model được biết đến nhiều nhất. Đây là model dùng để tạo câu trả lời, viết văn bản, tóm tắt, phân tích, dịch thuật, giải thích và hội thoại với người dùng.

Trong bệnh viện, LLM có thể được dùng cho:

Chatbot nội bộ.
Soạn thảo kế hoạch, báo cáo, quy trình.
Tóm tắt tài liệu.
Giải thích quy định.
Phân tích nội dung phản ánh.
Gợi ý bảng kiểm.
Hỗ trợ viết tài liệu đào tạo.
Tạo câu hỏi kiểm tra.
Hỗ trợ lập trình hoặc viết hướng dẫn kỹ thuật.

LLM là thành phần tạo “giọng nói” và “lập luận” của hệ thống. Tuy nhiên, LLM không nhất thiết tự biết tài liệu nội bộ của bệnh viện. Muốn trả lời theo tài liệu bệnh viện, LLM cần được cung cấp ngữ cảnh qua prompt hoặc RAG.

3. Embedding model: model chuyển văn bản thành vector

Embedding model là nhóm model có vai trò rất quan trọng nhưng ít được người dùng phổ thông chú ý. Embedding model không dùng để viết câu trả lời dài. Nó dùng để chuyển một đoạn văn bản thành một vector số học, tức là một dãy số biểu diễn ý nghĩa của đoạn văn bản.

Khi hai đoạn văn bản có ý nghĩa gần nhau, vector của chúng sẽ gần nhau trong không gian vector. Nhờ đó, hệ thống có thể tìm kiếm theo ngữ nghĩa thay vì chỉ tìm theo từ khóa.

Ví dụ, người dùng hỏi: “Làm sao xử lý khi người bệnh té ngã trong khoa?” Tài liệu nội bộ có thể không chứa đúng cụm “làm sao xử lý”, mà có tiêu đề “Quy trình báo cáo và xử trí sự cố té ngã”. Tìm kiếm từ khóa có thể bỏ sót. Embedding giúp hệ thống hiểu rằng hai nội dung này liên quan về mặt ý nghĩa.

Trong bệnh viện, embedding model dùng cho:

Xây dựng chỉ mục tài liệu.
Tìm kiếm ngữ nghĩa trong kho quy trình.
Truy xuất đoạn tài liệu liên quan cho RAG.
Tìm nội dung tương tự.
Phân nhóm văn bản theo ý nghĩa.
Hỗ trợ phát hiện tài liệu trùng lặp hoặc gần giống.

Embedding model là nền tảng của hệ thống RAG. Nếu embedding kém, hệ thống có thể truy xuất sai tài liệu, dẫn đến LLM trả lời sai hoặc thiếu căn cứ.

4. Reranker: model sắp xếp lại kết quả truy xuất

Trong hệ thống RAG, sau khi embedding model tìm được một danh sách các đoạn tài liệu có vẻ liên quan, reranker có thể được dùng để sắp xếp lại danh sách đó theo mức độ phù hợp thực sự với câu hỏi.

Embedding search thường nhanh và tốt cho tìm kiếm sơ bộ, nhưng đôi khi kết quả đầu tiên chưa phải là kết quả tốt nhất. Reranker đọc cặp “câu hỏi - đoạn tài liệu” và đánh giá mức độ liên quan chính xác hơn. Sau đó, hệ thống chọn những đoạn tốt nhất để đưa vào prompt cho LLM.

Trong bệnh viện, reranker hữu ích khi kho tài liệu lớn, nhiều quy trình có nội dung gần nhau hoặc câu hỏi người dùng dài và phức tạp. Ví dụ, các tài liệu về sự cố y khoa, phản ánh người bệnh, kiểm tra chất lượng và an toàn người bệnh có thể có nhiều từ khóa giống nhau. Reranker giúp chọn đúng đoạn liên quan nhất.

Reranker thường làm tăng chất lượng RAG nhưng cũng làm tăng thời gian xử lý. Vì vậy, cần cân bằng giữa độ chính xác và tốc độ.

5. Vision model: model xử lý hình ảnh

Vision model là nhóm model có khả năng xử lý hình ảnh. Có nhiều loại vision model khác nhau: nhận dạng vật thể, phân loại ảnh, đọc chữ trong ảnh, mô tả ảnh, phân tích biểu đồ, hoặc kết hợp hình ảnh và ngôn ngữ.

Trong bệnh viện, cần phân biệt rõ hai nhóm:

Thứ nhất là vision model phục vụ công việc hành chính, tài liệu và quản trị, ví dụ đọc ảnh chụp biểu mẫu, nhận diện bố cục tài liệu, mô tả sơ đồ, hỗ trợ xử lý ảnh trong báo cáo.

Thứ hai là AI phân tích hình ảnh y tế như X-quang, CT, MRI, nội soi, siêu âm. Nhóm này có rủi ro chuyên môn rất cao, cần kiểm định, đánh giá lâm sàng và tuân thủ quy định. Không nên tùy tiện dùng vision model thông thường để chẩn đoán hình ảnh y tế.

Trong hệ thống AI local bệnh viện giai đoạn đầu, vision model nên được sử dụng thận trọng, ưu tiên các tác vụ không chẩn đoán như hỗ trợ tài liệu, đọc biểu mẫu hoặc mô tả hình ảnh minh họa. Không nên dùng model vision phổ thông để thay bác sĩ chẩn đoán hình ảnh.

6. Cách phối hợp các nhóm model trong RAG

Một hệ thống RAG cho bệnh viện thường phối hợp nhiều nhóm model:

Embedding model chuyển tài liệu thành vector.
FAISS lưu vector và tìm đoạn liên quan.
Reranker sắp xếp lại các đoạn liên quan.
LLM tạo câu trả lời dựa trên đoạn tài liệu được chọn.

Ví dụ, khi người dùng hỏi: “Khi xảy ra sự cố té ngã, khoa phải báo cáo như thế nào?”, hệ thống sẽ:

Dùng embedding model chuyển câu hỏi thành vector.
Tìm trong FAISS các đoạn tài liệu liên quan.
Dùng reranker chọn đoạn phù hợp nhất.
Đưa các đoạn này vào prompt cho LLM.
LLM tạo câu trả lời có cấu trúc, kèm nguồn nếu hệ thống hỗ trợ.

Nhờ phối hợp như vậy, hệ thống trả lời bám sát tài liệu hơn so với việc chỉ hỏi LLM đơn thuần.

7. Bệnh viện có cần tất cả các nhóm model ngay từ đầu không?

Không nhất thiết. Lộ trình thực tế có thể đi từng bước.

Giai đoạn đầu, bệnh viện có thể chỉ cần một LLM chạy với Ollama để thử nghiệm tóm tắt, soạn thảo và hỏi đáp cơ bản.

Giai đoạn tiếp theo, khi muốn tra cứu tài liệu nội bộ, bệnh viện cần embedding model và vector database như FAISS.

Khi kho tài liệu lớn hơn và yêu cầu chất lượng truy xuất cao hơn, bệnh viện có thể bổ sung reranker.

Vision model nên triển khai sau, khi có nhu cầu rõ và đã đánh giá rủi ro.

Điều quan trọng là không triển khai quá phức tạp ngay từ đầu. Bệnh viện nên bắt đầu từ nhu cầu thực tế, sau đó bổ sung thành phần kỹ thuật khi cần.

8. Kết luận

Một hệ thống AI local bệnh viện không chỉ có một loại model. LLM dùng để sinh câu trả lời và xử lý ngôn ngữ; embedding model dùng để tìm kiếm ngữ nghĩa; reranker dùng để cải thiện độ chính xác truy xuất; vision model dùng cho tác vụ hình ảnh trong phạm vi phù hợp.

Hiểu đúng vai trò của từng nhóm model giúp bệnh viện xây dựng hệ thống AI local có kiến trúc rõ ràng, dễ mở rộng và giảm rủi ro. Đặc biệt, với các hệ thống hỏi đáp tài liệu nội bộ, embedding model và FAISS có vai trò nền tảng không kém LLM.

Đăng nhập để gửi ý kiến