Bài 4. Lớp vận hành model: Ollama, llama.cpp, vLLM, LM Studio

1. Đặt vấn đề

Model AI là tập trọng số đã được huấn luyện, nhưng bản thân model không tự chạy. Để sử dụng model, cần có phần mềm vận hành model. Lớp này thường được gọi là inference runtime hoặc model serving layer. Nó chịu trách nhiệm tải model, nhận prompt, xử lý ngữ cảnh, sinh token, trả kết quả và cung cấp API cho các ứng dụng khác.

Trong hệ thống AI local bệnh viện, lớp vận hành model rất quan trọng vì nó ảnh hưởng đến tốc độ, độ ổn định, khả năng quản lý nhiều model, khả năng tích hợp API, khả năng phục vụ nhiều người dùng và mức độ dễ vận hành. Các công cụ phổ biến gồm Ollama, llama.cpp, vLLM và LM Studio. Mỗi công cụ có ưu điểm và phạm vi phù hợp riêng.

Chuyên đề này tập trung vào Ollama vì phù hợp để bệnh viện bắt đầu triển khai AI local: dễ cài, dễ dùng, hỗ trợ nhiều model, có API và tương đối đơn giản cho đội ngũ CNTT bệnh viện.

2. Vai trò của lớp vận hành model

Lớp vận hành model thực hiện các chức năng chính:

Tải model từ kho hoặc file local.
Quản lý danh sách model đã cài.
Chạy model bằng CPU hoặc GPU.
Nhận yêu cầu sinh văn bản.
Quản lý tham số như temperature, top_p, context length.
Trả kết quả dạng đầy đủ hoặc streaming.
Cung cấp API cho ứng dụng bên ngoài.
Quản lý bộ nhớ khi model chạy.
Hỗ trợ nhiều phiên bản hoặc model tùy biến.

Nếu không có lớp này, bệnh viện chỉ có file model nhưng không có cách sử dụng thực tế.

3. Ollama

Ollama là công cụ giúp chạy các model ngôn ngữ local một cách đơn giản. Người dùng có thể tải model bằng ollama pull, chạy model bằng ollama run, tạo model tùy biến bằng Modelfile và gọi API để tích hợp với ứng dụng.

Ưu điểm của Ollama:

Cài đặt tương đối đơn giản.
Cú pháp dễ dùng.
Quản lý model thuận tiện.
Có API local.
Phù hợp chạy trên máy chủ nội bộ.
Hỗ trợ Modelfile để tùy biến system prompt và tham số.
Phù hợp cho giai đoạn thử nghiệm và triển khai ban đầu.

Trong bệnh viện, Ollama phù hợp cho các ứng dụng như chatbot nội bộ, trợ lý quản lý chất lượng, trợ lý soạn thảo văn bản, hỏi đáp tài liệu RAG, tích hợp với Drupal hoặc website nội bộ.

Hạn chế của Ollama là không phải lúc nào cũng tối ưu nhất cho phục vụ số lượng lớn người dùng đồng thời hoặc throughput rất cao. Với bệnh viện giai đoạn đầu, hạn chế này thường chấp nhận được. Khi quy mô lớn hơn, có thể cân nhắc công cụ khác hoặc kiến trúc phục vụ chuyên biệt hơn.

4. llama.cpp

llama.cpp là dự án quan trọng trong hệ sinh thái AI local, đặc biệt với các model GGUF. Nó cho phép chạy model trên CPU và GPU với khả năng tối ưu tốt. Nhiều công cụ khác, bao gồm các lớp phía trên, có liên quan hoặc kế thừa ý tưởng từ hệ sinh thái này.

Ưu điểm của llama.cpp:

Nhẹ.
Linh hoạt.
Hỗ trợ GGUF.
Có thể chạy trên nhiều loại phần cứng.
Phù hợp cho người dùng kỹ thuật muốn kiểm soát sâu.

Tuy nhiên, llama.cpp yêu cầu người quản trị hiểu kỹ hơn về tham số, command line, build, GPU offload và cách phục vụ API. Với bệnh viện mới bắt đầu, llama.cpp có thể phù hợp cho nhóm CNTT nghiên cứu sâu, nhưng Ollama dễ tiếp cận hơn cho vận hành ban đầu.

5. vLLM

vLLM là công cụ phục vụ LLM hiệu năng cao, thường dùng trong môi trường cần throughput lớn, nhiều người dùng đồng thời và triển khai dạng server chuyên nghiệp. vLLM có các tối ưu về quản lý bộ nhớ và phục vụ request.

Ưu điểm của vLLM:

Hiệu năng cao.
Phù hợp nhiều request đồng thời.
Tốt cho triển khai quy mô lớn.
Hỗ trợ API theo phong cách tương thích OpenAI trong nhiều cấu hình.
Phù hợp với hạ tầng GPU mạnh.

Hạn chế là triển khai phức tạp hơn Ollama, yêu cầu hiểu sâu hơn về môi trường Python, CUDA, GPU, container và cấu hình server. Với bệnh viện mới bắt đầu AI local, vLLM có thể là lựa chọn giai đoạn nâng cao khi số người dùng tăng và cần tối ưu hiệu năng.

6. LM Studio

LM Studio là công cụ có giao diện đồ họa, phù hợp với người dùng cá nhân hoặc nhóm nhỏ muốn tải và chạy model local dễ dàng. Nó giúp thử nghiệm model, chat với model và cung cấp server API trong một số trường hợp.

Ưu điểm:

Dễ dùng.
Có giao diện trực quan.
Phù hợp thử nghiệm trên máy cá nhân.
Hữu ích để đánh giá model nhanh.

Hạn chế:

Không phải lựa chọn tối ưu cho máy chủ bệnh viện vận hành chính thức.
Quản trị headless server kém phù hợp hơn Ubuntu Server + Ollama/vLLM.
Khó chuẩn hóa vận hành trong môi trường nhiều người dùng.

Trong bệnh viện, LM Studio có thể phù hợp cho giai đoạn học tập hoặc thử nghiệm model trên máy cá nhân, nhưng không nên là nền tảng chính cho hệ thống AI local nội bộ quy mô bệnh viện.

7. So sánh định hướng sử dụng

Có thể định hướng như sau:

Công cụ	Phù hợp nhất với	Ưu điểm chính	Hạn chế chính
Ollama	Bệnh viện bắt đầu AI local, chatbot nội bộ, RAG cơ bản	Dễ cài, dễ dùng, có API	Không tối ưu nhất cho tải rất lớn
llama.cpp	Nhóm kỹ thuật muốn kiểm soát sâu	Linh hoạt, nhẹ, mạnh với GGUF	Cần kỹ thuật hơn
vLLM	Hệ thống nhiều người dùng, hiệu năng cao	Throughput tốt, phục vụ chuyên nghiệp	Cài đặt và vận hành phức tạp hơn
LM Studio	Cá nhân, thử nghiệm, đánh giá model	Giao diện dễ dùng	Không phù hợp nhất cho server bệnh viện

8. Vị trí của Ollama trong kiến trúc bệnh viện

Trong kiến trúc AI local bệnh viện, Ollama nên nằm ở lớp model serving, phía sau API trung gian. Luồng khuyến nghị:

Người dùng → Website/Chatbot/Drupal → API trung gian → Ollama → Model → API trung gian → Người dùng.

API trung gian có vai trò rất quan trọng:

Xác thực người dùng.
Phân quyền.
Ghi log.
Kiểm soát prompt.
Gọi RAG.
Chèn tài liệu liên quan.
Kiểm soát đầu ra.
Giới hạn tốc độ.
Che giấu endpoint Ollama.

Không nên cho người dùng cuối gọi trực tiếp Ollama nếu triển khai chính thức.

9. Cách chọn công cụ theo giai đoạn

Giai đoạn thử nghiệm cá nhân: có thể dùng LM Studio hoặc Ollama.

Giai đoạn máy chủ nội bộ nhỏ: nên dùng Ollama.

Giai đoạn RAG nội bộ cho phòng ban: Ollama kết hợp API trung gian và FAISS là phù hợp.

Giai đoạn nhiều người dùng đồng thời: đánh giá hiệu năng, có thể tối ưu Ollama, tách embedding service, hoặc cân nhắc vLLM.

Giai đoạn triển khai lớn: cần kiến trúc phục vụ chuyên nghiệp, hàng đợi request, monitoring, load balancing nếu có nhiều máy chủ.

10. Kết luận

Lớp vận hành model là cầu nối giữa model AI và ứng dụng thực tế. Ollama, llama.cpp, vLLM và LM Studio đều có vai trò riêng. Với bệnh viện bắt đầu triển khai AI local, Ollama là lựa chọn thực tế vì dễ cài, dễ quản lý và có API. Khi nhu cầu tăng, bệnh viện có thể nghiên cứu thêm llama.cpp hoặc vLLM để tối ưu sâu hơn.

Điều quan trọng là không để lớp vận hành model hoạt động một cách trần trụi, không kiểm soát. Trong môi trường bệnh viện, model serving cần nằm sau lớp API trung gian, có xác thực, phân quyền, log và chính sách bảo mật rõ ràng.

Đăng nhập để gửi ý kiến