Bài 9. Các khái niệm cơ bản: model, tag, Modelfile, pull, run, serve

1. Đặt vấn đề

Để làm việc với Ollama, người dùng cần hiểu một số khái niệm cơ bản. Những khái niệm này xuất hiện thường xuyên khi cài đặt, tải model, chạy model, tạo model tùy biến và tích hợp API. Nếu không hiểu rõ, người quản trị dễ nhầm lẫn giữa model và tag, giữa pull và run, giữa Modelfile và file model, hoặc giữa chạy thử trong terminal và chạy service API.

Bài này giải thích các khái niệm nền tảng trong Ollama theo hướng thực tế cho bệnh viện.

2. Model

Model là mô hình AI được huấn luyện sẵn để thực hiện một số tác vụ. Trong Ollama, model có thể là LLM dùng để sinh văn bản, model embedding dùng để tạo vector, hoặc model khác được Ollama hỗ trợ.

Ví dụ về model:

Llama.
Qwen.
Mistral.
Gemma.
Phi.
Các model embedding.

Trong bệnh viện, model nên được chọn theo tác vụ:

Model viết văn bản hành chính.
Model hỏi đáp nội bộ.
Model hỗ trợ quản lý chất lượng.
Model embedding cho RAG.
Model nhỏ cho tác vụ nhanh.

Không nên tải model tùy tiện. Cần có danh mục model đang dùng, mục đích sử dụng, phiên bản và kết quả đánh giá.

3. Tag

Tag là nhãn chỉ phiên bản hoặc biến thể của model. Trong Ollama, model thường được gọi bằng dạng tên_model:tag.

Ví dụ, về mặt khái niệm:

qwen2.5:7b
qwen2.5:14b
llama3.1:8b
gemma3:4b

Phần sau dấu hai chấm là tag. Tag có thể biểu thị kích thước model, phiên bản, biến thể hoặc cấu hình.

Nếu không ghi tag, một số hệ thống có thể dùng tag mặc định như latest, nhưng trong môi trường bệnh viện nên hạn chế phụ thuộc vào latest vì có thể gây khó kiểm soát phiên bản. Nên ghi rõ model và tag để biết chính xác đang dùng gì.

4. Modelfile

Modelfile là file cấu hình dùng để tạo model tùy biến trong Ollama. Nó có thể khai báo model nền, system prompt, tham số và một số thiết lập hành vi.

Trong bệnh viện, Modelfile rất hữu ích để tạo các trợ lý AI theo vai trò.

Ví dụ, một Modelfile cho trợ lý quản lý chất lượng có thể quy định:

Trả lời bằng tiếng Việt.
Văn phong chuyên nghiệp.
Ưu tiên an toàn người bệnh.
Không tự bịa căn cứ.
Khi thiếu thông tin thì nói rõ chưa đủ căn cứ.
Không thay thế quyết định chuyên môn.
Gợi ý cấu trúc kế hoạch, bảng kiểm, phân tích nguyên nhân.
Luôn nhắc kiểm tra trước khi ban hành văn bản chính thức.

Modelfile giúp chuẩn hóa hành vi model, nhưng không thay thế RAG hoặc phân quyền.

5. Pull

pull là thao tác tải model về máy chủ local. Khi dùng ollama pull, Ollama tải model từ kho model về máy. Sau khi tải, model được lưu trên ổ cứng và có thể chạy offline hoặc trong mạng nội bộ tùy cấu hình.

Trong bệnh viện, cần lưu ý:

Model có dung lượng lớn.
Cần đủ dung lượng ổ cứng.
Cần kiểm tra giấy phép model.
Không nên tải quá nhiều model không dùng.
Cần ghi lại model đã tải để quản lý.
Nên kiểm tra model sau khi tải.

Pull là bước chuẩn bị model, chưa phải là chạy model cho người dùng.

6. Run

run là thao tác chạy model để tương tác. Khi dùng ollama run model, người dùng có thể hỏi trực tiếp model qua terminal.

Run phù hợp cho:

Kiểm tra model đã tải.
Thử prompt.
Đánh giá tiếng Việt.
Kiểm tra tốc độ.
Kiểm tra model có dùng GPU không.
So sánh các model.

Trong bệnh viện, run thường dùng ở giai đoạn thử nghiệm kỹ thuật. Khi triển khai cho người dùng cuối, nên dùng giao diện web hoặc API, không yêu cầu nhân viên dùng terminal.

7. Serve

serve là chế độ chạy Ollama như một dịch vụ API. Khi Ollama serve hoạt động, các ứng dụng khác có thể gửi request đến API của Ollama để sinh câu trả lời.

Serve rất quan trọng cho tích hợp:

Chatbot web.
Drupal.
Python script.
PHP application.
Hệ thống RAG.
API trung gian.

Trong bệnh viện, khi chạy serve, cần kiểm soát cổng dịch vụ. Không nên mở API Ollama trực tiếp ra Internet. Nên đặt sau firewall, reverse proxy hoặc API trung gian có xác thực.

8. List và rm

Ngoài các khái niệm chính, người quản trị cần biết thao tác liệt kê và xóa model.

list dùng để xem các model đã cài. Điều này giúp kiểm soát dung lượng và biết hệ thống đang có model nào.

rm dùng để xóa model không dùng. Model có thể chiếm nhiều GB, nên cần dọn dẹp định kỳ.

Trong bệnh viện, nên có quy định:

Model nào là model chính thức.
Model nào là model thử nghiệm.
Ai được tải/xóa model.
Khi xóa model cần kiểm tra có ứng dụng nào đang dùng không.
Ghi lại thay đổi model trong nhật ký vận hành.

9. System prompt

System prompt là phần hướng dẫn nền cho model về vai trò, cách trả lời và giới hạn. Trong Ollama, system prompt có thể được thiết lập qua Modelfile hoặc trong request API tùy cách tích hợp.

Trong bệnh viện, system prompt rất quan trọng. Nó giúp định hướng model:

Trả lời thận trọng.
Không tự bịa nguồn.
Không thay thế bác sĩ.
Không tư vấn điều trị cá nhân hóa nếu không được phép.
Ưu tiên tài liệu được cung cấp.
Yêu cầu người dùng kiểm tra lại.
Dùng văn phong hành chính bệnh viện.

System prompt không phải cơ chế bảo mật tuyệt đối, nhưng là lớp định hướng hành vi cần có.

10. API request và response

Khi tích hợp Ollama, ứng dụng gửi request đến API và nhận response. Request thường gồm model, prompt hoặc messages, tham số sinh văn bản và tùy chọn streaming. Response là câu trả lời do model tạo ra.

Trong bệnh viện, API request không nên gửi trực tiếp từ trình duyệt người dùng đến Ollama nếu có dữ liệu nhạy cảm. Nên đi qua API trung gian để kiểm tra quyền, log, RAG và lọc dữ liệu.

11. Streaming

Streaming là cách trả câu trả lời từng phần khi model đang sinh token. Người dùng thấy câu trả lời xuất hiện dần thay vì chờ xong toàn bộ. Điều này cải thiện trải nghiệm, nhất là khi câu trả lời dài.

Trong chatbot nội bộ, streaming giúp người dùng cảm thấy hệ thống phản hồi nhanh hơn. Tuy nhiên, việc log và kiểm soát đầu ra với streaming cần thiết kế cẩn thận.

12. Temperature

Temperature là tham số ảnh hưởng đến mức độ sáng tạo hoặc ổn định của câu trả lời. Temperature thấp giúp câu trả lời ổn định hơn, ít sáng tạo hơn. Temperature cao làm câu trả lời đa dạng hơn nhưng có thể tăng nguy cơ sai lệch.

Trong bệnh viện, với các tác vụ quy trình, quy định, văn bản chính thức hoặc RAG, nên dùng temperature thấp để ưu tiên ổn định. Với tác vụ gợi ý ý tưởng hoặc viết nháp sáng tạo, có thể tăng nhẹ nhưng vẫn cần kiểm tra.

13. Context length

Context length là giới hạn ngữ cảnh model xử lý. Trong Ollama, có thể điều chỉnh tham số liên quan như num_ctx tùy model. Context dài hơn giúp đưa nhiều tài liệu hơn, nhưng tiêu tốn nhiều RAM/VRAM và làm chậm.

Trong bệnh viện, không nên tăng context tùy tiện. Nên tối ưu RAG để đưa đúng đoạn tài liệu cần thiết thay vì đưa quá nhiều nội dung vào prompt.

14. Kết luận

Khi làm việc với Ollama, cần hiểu các khái niệm cơ bản: model là mô hình AI; tag là biến thể hoặc phiên bản model; Modelfile dùng để tạo model tùy biến; pull là tải model; run là chạy thử model; serve là chạy dịch vụ API; system prompt định hướng hành vi; API request/response phục vụ tích hợp; streaming cải thiện trải nghiệm; temperature và context length ảnh hưởng đến chất lượng và hiệu năng.

Hiểu các khái niệm này giúp bệnh viện sử dụng Ollama có kiểm soát hơn, tránh nhầm lẫn và chuẩn bị tốt cho các chương tiếp theo về cài đặt, lựa chọn model, làm việc với model, Modelfile và tích hợp API.

Đăng nhập để gửi ý kiến