Bài 5. Lớp model: LLM, embedding model, reranker, vision-language model

1. Đặt vấn đề

Trong hệ thống AI local bệnh viện, model là lớp xử lý trí tuệ nhân tạo trực tiếp. Tuy nhiên, không nên hiểu lớp model chỉ gồm một chatbot hoặc một LLM duy nhất. Một kiến trúc hoàn chỉnh thường cần nhiều loại model khác nhau, mỗi loại xử lý một phần nhiệm vụ: sinh văn bản, tạo vector, sắp xếp kết quả, hoặc xử lý hình ảnh và văn bản.

Lớp model phải được thiết kế theo tác vụ. Nếu bệnh viện cần soạn thảo báo cáo, LLM là trung tâm. Nếu bệnh viện cần tra cứu tài liệu nội bộ, embedding model là bắt buộc. Nếu kho tài liệu lớn và kết quả truy xuất dễ nhiễu, reranker rất hữu ích. Nếu bệnh viện muốn xử lý ảnh tài liệu hoặc hình ảnh minh họa, có thể cần vision-language model, nhưng phải phân biệt rõ với AI chẩn đoán hình ảnh y tế.

2. LLM trong hệ thống bệnh viện

LLM là model sinh ngôn ngữ. Đây là thành phần người dùng thường nhìn thấy nhất vì nó tạo ra câu trả lời. Trong bệnh viện, LLM có thể hỗ trợ:

Hỏi đáp nội bộ.
Tóm tắt tài liệu.
Viết kế hoạch.
Viết báo cáo.
Soạn quy trình.
Tạo bảng kiểm.
Phân tích phản ánh.
Gợi ý kế hoạch cải tiến.
Tạo tài liệu đào tạo.
Giải thích thuật ngữ.

LLM nên được chọn theo phần cứng, tiếng Việt, tác vụ và mức độ ổn định. Một model 7B/8B tốt có thể phù hợp cho chatbot nội bộ cơ bản. Model 14B có thể tốt hơn cho phân tích sâu và viết văn bản dài nếu phần cứng đáp ứng.

LLM trong bệnh viện cần được hướng dẫn bằng system prompt phù hợp: trả lời thận trọng, không tự bịa nguồn, không đưa ra chẩn đoán, không thay thế quyết định chuyên môn, ưu tiên tài liệu được cung cấp và nhắc người dùng kiểm tra trước khi sử dụng chính thức.

3. Embedding model

Embedding model chuyển văn bản thành vector. Đây là thành phần nền tảng của RAG. Nếu không có embedding model, hệ thống khó tìm kiếm ngữ nghĩa trong kho tài liệu lớn.

Trong bệnh viện, embedding model dùng để:

Tạo chỉ mục quy trình.
Tạo chỉ mục biểu mẫu.
Tìm tài liệu liên quan đến câu hỏi.
Tìm nội dung tương tự.
Phân nhóm phản ánh.
Hỗ trợ tìm minh chứng chất lượng.
Phát hiện tài liệu gần trùng.

Embedding model cần xử lý tiếng Việt tốt. Nếu embedding yếu, hệ thống có thể tìm sai tài liệu. Khi đó, LLM sẽ trả lời dựa trên nguồn sai hoặc thiếu nguồn. Vì vậy, embedding model quan trọng không kém LLM trong hệ thống hỏi đáp tài liệu bệnh viện.

4. Reranker

Reranker là model đánh giá lại mức độ liên quan giữa câu hỏi và các đoạn tài liệu đã được truy xuất. Nó giúp cải thiện chất lượng RAG, đặc biệt khi kho tài liệu lớn, nhiều tài liệu gần giống nhau hoặc câu hỏi phức tạp.

Quy trình thường là:

Embedding search lấy 20 đoạn liên quan sơ bộ.
Reranker chấm điểm lại từng đoạn theo câu hỏi.
Hệ thống chọn 3–5 đoạn tốt nhất đưa vào prompt.
LLM trả lời.

Reranker giúp giảm nguy cơ đưa tài liệu không liên quan vào prompt. Trong bệnh viện, điều này rất quan trọng vì nhiều tài liệu có thuật ngữ giống nhau nhưng phạm vi áp dụng khác nhau. Ví dụ, “báo cáo sự cố”, “phản ánh người bệnh”, “kiểm tra chất lượng” và “hành động khắc phục” có thể xuất hiện trong nhiều văn bản. Reranker giúp chọn đúng đoạn liên quan nhất.

Hạn chế là reranker làm tăng thời gian xử lý. Vì vậy, cần cân nhắc khi hệ thống yêu cầu phản hồi nhanh.

5. Vision-language model

Vision-language model có khả năng xử lý cả hình ảnh và văn bản. Model loại này có thể mô tả ảnh, đọc nội dung trong ảnh, phân tích bố cục, giải thích biểu đồ hoặc nhận diện thông tin từ tài liệu dạng ảnh.

Trong bệnh viện, vision-language model có thể hỗ trợ các tác vụ hành chính và tài liệu:

Đọc ảnh chụp biểu mẫu.
Mô tả sơ đồ quy trình.
Phân tích ảnh chụp bảng thông báo.
Hỗ trợ trích xuất thông tin từ tài liệu scan.
Hỗ trợ kiểm tra bố cục hình minh họa.
Hỗ trợ chuyển một số nội dung hình ảnh thành văn bản.

Tuy nhiên, cần nhấn mạnh: vision-language model phổ thông không được dùng để thay thế bác sĩ chẩn đoán hình ảnh. Phân tích X-quang, CT, MRI, siêu âm, nội soi là lĩnh vực chuyên môn rủi ro cao, cần hệ thống chuyên dụng, kiểm định, đánh giá lâm sàng và quy trình pháp lý. Trong hệ thống AI local với Ollama, vision-language model nên được dùng thận trọng ở nhóm tác vụ hỗ trợ tài liệu, không dùng như công cụ chẩn đoán.

6. Cách phối hợp các model trong một hệ thống

Một hệ thống AI local bệnh viện có thể phối hợp như sau:

LLM chính: tạo câu trả lời và viết nội dung.
Embedding model: lập chỉ mục và tìm tài liệu.
Reranker: chọn lại đoạn tài liệu chính xác.
Vision-language model: xử lý ảnh tài liệu khi cần.
Model nhỏ phụ trợ: phân loại nhanh hoặc xử lý tác vụ nhẹ.

Không nhất thiết mọi bệnh viện phải triển khai tất cả ngay từ đầu. Nhưng kiến trúc nên được thiết kế để có thể bổ sung sau này.

7. Quản lý nhiều model

Khi có nhiều model, bệnh viện cần quản lý:

Model nào dùng cho tác vụ nào.
Phiên bản model.
Dung lượng model.
Thư mục lưu model.
Quyền sử dụng model.
Hiệu năng từng model.
Kết quả benchmark.
Ngày cập nhật model.
Lý do thay model.
Model mặc định theo phòng ban.

Nếu không quản lý, hệ thống có thể rối: người dùng không biết dùng model nào, ổ cứng đầy vì tải nhiều model, chất lượng không ổn định vì thay model tùy tiện.

8. Tiêu chí đánh giá lớp model

Bệnh viện nên đánh giá model bằng bộ câu hỏi thực tế:

Viết kế hoạch cải tiến chất lượng.
Tóm tắt quy trình nội bộ.
Trả lời câu hỏi từ tài liệu RAG.
Tạo bảng kiểm.
Phân tích phản ánh đã ẩn danh.
Soạn tài liệu đào tạo.
Giải thích quy trình cho nhân viên mới.
Viết nội dung truyền thông sức khỏe.

Cần đánh giá:

Độ đúng.
Khả năng tiếng Việt.
Khả năng bám nguồn.
Tốc độ.
Độ ổn định.
Mức sử dụng VRAM/RAM.
Khả năng không trả lời khi thiếu căn cứ.
Mức độ phù hợp văn phong bệnh viện.

9. Kết luận

Lớp model trong hệ thống AI local bệnh viện gồm nhiều loại model: LLM, embedding model, reranker và vision-language model. Mỗi loại có vai trò riêng. LLM tạo câu trả lời, embedding model tìm kiếm ngữ nghĩa, reranker cải thiện độ chính xác truy xuất, vision-language model hỗ trợ xử lý hình ảnh trong phạm vi phù hợp.

Bệnh viện không nên chỉ hỏi “model nào mạnh nhất”, mà cần hỏi “model nào phù hợp với tác vụ, phần cứng, dữ liệu và rủi ro của bệnh viện”. Một lớp model được thiết kế đúng sẽ giúp hệ thống AI local trả lời tốt hơn, nhanh hơn, có căn cứ hơn và an toàn hơn.

Đăng nhập để gửi ý kiến