Bài 2. Model AI local là gì?

1. Đặt vấn đề

Khi triển khai AI local, khái niệm “model” xuất hiện rất thường xuyên. Người dùng có thể nghe đến các tên như Llama, Qwen, Mistral, Gemma, Phi, DeepSeek, nomic-embed-text, bge, e5 hoặc nhiều model khác. Tuy nhiên, nếu không hiểu model AI local là gì, bệnh viện có thể nhầm lẫn giữa model, phần mềm chạy model, chatbot, dữ liệu và hệ thống ứng dụng.

Trong một hệ thống AI local, model chỉ là một thành phần, nhưng là thành phần rất quan trọng. Model quyết định phần lớn khả năng hiểu yêu cầu, sinh văn bản, tạo embedding, xử lý tiếng Việt, tóm tắt tài liệu, viết báo cáo hoặc trả lời câu hỏi. Tuy nhiên, model không tự biến thành một hệ thống AI hoàn chỉnh. Để dùng được trong bệnh viện, model cần được vận hành bởi phần mềm như Ollama, kết nối với giao diện người dùng, tích hợp với dữ liệu nội bộ, bảo vệ bằng phân quyền và được đặt trong quy chế sử dụng.

2. Khái niệm model AI local

Model AI local là một mô hình trí tuệ nhân tạo được tải về, lưu trữ và vận hành trên hạ tầng cục bộ do người dùng hoặc tổ chức kiểm soát. Trong bối cảnh bệnh viện, model AI local thường được cài trên máy chủ nội bộ, máy trạm mạnh hoặc private server, thay vì chỉ được gọi qua dịch vụ cloud bên ngoài.

Một model AI local có thể là:

Model ngôn ngữ lớn dùng để sinh văn bản.
Model embedding dùng để chuyển văn bản thành vector.
Model reranker dùng để sắp xếp lại kết quả tìm kiếm.
Model vision dùng để xử lý hình ảnh.
Model chuyên biệt cho phân loại, trích xuất hoặc nhận dạng.

Trong chuyên đề này, khi nói đến model AI local, trọng tâm chủ yếu là các model có thể vận hành với Ollama hoặc kết hợp với hệ thống RAG/FAISS trong bệnh viện.

3. Model khác gì với phần mềm Ollama?

Một điểm rất quan trọng là phân biệt model và phần mềm vận hành model.

Model là tập tin hoặc nhóm tập tin chứa trọng số đã được huấn luyện. Có thể hiểu model như “bộ não” đã học được các mẫu ngôn ngữ hoặc biểu diễn dữ liệu.

Ollama là phần mềm giúp tải, quản lý và chạy model. Ollama cung cấp lệnh để pull model, run model, xóa model, tạo model tùy biến bằng Modelfile và gọi model qua API.

Ví dụ, khi chạy:

ollama run qwen2.5:14b

thì qwen2.5:14b là model, còn ollama là công cụ vận hành model.

Nếu chỉ có model mà không có phần mềm vận hành, người dùng khó sử dụng. Nếu chỉ có Ollama mà chưa tải model, hệ thống chưa có khả năng trả lời. Nếu có cả Ollama và model nhưng không có dữ liệu nội bộ, hệ thống chỉ trả lời dựa trên kiến thức chung của model.

4. Model local khác gì model cloud?

Model cloud chạy trên hạ tầng của nhà cung cấp dịch vụ. Người dùng không trực tiếp tải model về, không kiểm soát tập tin model, không kiểm soát hạ tầng chạy model và thường chỉ truy cập qua giao diện hoặc API.

Model local được lưu trên máy chủ của bệnh viện. Bệnh viện có thể biết model nào đang dùng, phiên bản nào, dung lượng bao nhiêu, chạy bằng CPU hay GPU, có thể xóa, cập nhật, sao lưu hoặc thay thế. Điều này giúp bệnh viện chủ động hơn, nhưng cũng đòi hỏi năng lực quản trị.

Model cloud thường mạnh hơn vì chạy trên hạ tầng lớn. Model local thường phải cân bằng giữa chất lượng và phần cứng hiện có. Ví dụ, bệnh viện có GPU 16GB VRAM có thể chạy tốt nhiều model 7B, 8B hoặc một số model 14B đã lượng tử hóa, nhưng khó chạy mượt các model rất lớn như 70B nếu không có cấu hình phù hợp.

5. Các định dạng model local

Model local có thể có nhiều định dạng khác nhau tùy hệ sinh thái. Với Ollama và llama.cpp, định dạng GGUF rất phổ biến. GGUF là định dạng model đã được tối ưu để chạy trên CPU/GPU trong môi trường local, thường đi kèm các mức quantization như Q4, Q5, Q8.

Định dạng model ảnh hưởng đến:

Dung lượng lưu trữ.
Mức RAM/VRAM cần dùng.
Tốc độ chạy.
Chất lượng câu trả lời.
Khả năng tương thích với công cụ vận hành.

Trong bệnh viện, không cần hiểu quá sâu cấu trúc file model, nhưng cần biết rằng cùng một model có thể có nhiều phiên bản quantization khác nhau. Phiên bản nhẹ hơn chạy nhanh hơn và cần ít VRAM hơn, nhưng có thể giảm chất lượng. Phiên bản nặng hơn chất lượng tốt hơn nhưng cần phần cứng mạnh hơn.

6. Model local có tự học từ dữ liệu bệnh viện không?

Thông thường, model local không tự học từ dữ liệu bệnh viện chỉ vì được cài trên máy chủ bệnh viện. Nếu người dùng hỏi một câu rồi model trả lời, model không tự cập nhật trọng số sau mỗi cuộc hội thoại. Điều này là điểm cần hiểu rõ.

Có ba cách chính để model sử dụng tri thức bệnh viện:

Thứ nhất, đưa tài liệu vào prompt. Cách này đơn giản nhưng bị giới hạn bởi context window.

Thứ hai, dùng RAG. Hệ thống tìm tài liệu liên quan trong kho nội bộ rồi đưa đoạn phù hợp vào prompt. Đây là cách phù hợp nhất trong giai đoạn đầu.

Thứ ba, fine-tuning hoặc huấn luyện bổ sung. Cách này phức tạp hơn, cần dữ liệu chuẩn và đánh giá kỹ. Không nên là lựa chọn đầu tiên với dữ liệu bệnh viện nhạy cảm.

Vì vậy, khi bệnh viện cài model local, không nên hiểu rằng model đã “biết hết tài liệu bệnh viện”. Muốn model trả lời theo tài liệu nội bộ, cần có hệ thống dữ liệu đi kèm.

7. Tiêu chí chọn model AI local cho bệnh viện

Khi chọn model AI local, bệnh viện cần cân nhắc nhiều tiêu chí.

7.1. Phù hợp phần cứng

Model phải phù hợp với CPU, GPU, RAM và VRAM hiện có. Nếu chọn model quá lớn, hệ thống sẽ chậm hoặc không chạy được. Nếu chọn model quá nhỏ, chất lượng có thể không đáp ứng.

7.2. Khả năng tiếng Việt

Bệnh viện Việt Nam cần model xử lý tiếng Việt tốt. Model phải hiểu văn bản hành chính, thuật ngữ y tế, câu hỏi dài và ngữ cảnh tiếng Việt. Một số model có khả năng tiếng Anh rất tốt nhưng tiếng Việt chưa đủ mạnh.

7.3. Phù hợp tác vụ

Không có model tốt nhất cho mọi việc. Có model mạnh về viết văn bản, có model mạnh về lập trình, có model mạnh về suy luận, có model phù hợp cho embedding. Bệnh viện cần chọn theo tác vụ cụ thể.

7.4. Tốc độ phản hồi

Một model rất tốt nhưng quá chậm có thể không phù hợp khi nhiều người dùng. Trong môi trường bệnh viện, trải nghiệm người dùng rất quan trọng.

7.5. Khả năng chạy ổn định

Model cần chạy ổn định trên máy chủ thực tế. Nên kiểm tra nhiều lần với các prompt bệnh viện thường dùng trước khi triển khai rộng.

7.6. Giấy phép sử dụng

Bệnh viện cần lưu ý giấy phép của model, đặc biệt nếu dùng cho nội bộ, thương mại, tích hợp phần mềm hoặc cung cấp dịch vụ.

8. Model local trong hệ thống bệnh viện không nên đứng một mình

Một model local đơn lẻ chỉ là bước khởi đầu. Để có giá trị trong bệnh viện, model cần nằm trong hệ thống gồm:

Công cụ vận hành như Ollama.
Giao diện người dùng.
API trung gian.
Cơ chế phân quyền.
Kho tài liệu nội bộ.
RAG/FAISS.
Ghi log.
Kiểm soát dữ liệu đầu vào.
Kiểm soát câu trả lời đầu ra.
Quy chế sử dụng.
Quy trình đánh giá chất lượng.

Nếu chỉ cài model rồi cho người dùng hỏi tự do, hệ thống có thể nhanh chóng gặp vấn đề: trả lời sai, không có nguồn, không đúng quy trình, khó kiểm soát dữ liệu và khó đánh giá hiệu quả.

9. Kết luận

Model AI local là mô hình trí tuệ nhân tạo được lưu trữ và vận hành trên hạ tầng do bệnh viện kiểm soát. Đây là thành phần cốt lõi của hệ thống AI local, nhưng không phải toàn bộ hệ thống. Model cần được vận hành bằng công cụ phù hợp, kết hợp với dữ liệu nội bộ, phân quyền, bảo mật, giao diện và quy trình sử dụng.

Đối với bệnh viện, chọn model không nên dựa vào tên nổi tiếng hoặc số tham số lớn nhất, mà phải dựa vào phần cứng thực tế, tiếng Việt, tác vụ cụ thể, tốc độ, độ ổn định, khả năng tích hợp và yêu cầu bảo mật. Một model vừa sức, được tích hợp tốt với RAG và kho tài liệu nội bộ, thường hữu ích hơn một model rất lớn nhưng chậm, khó kiểm soát và không phù hợp với quy trình bệnh viện.

Đăng nhập để gửi ý kiến