1. Đặt vấn đề
Sau khi cài đặt Ollama, thao tác đầu tiên để sử dụng AI local là tải model về máy chủ. Trong Ollama, lệnh thường dùng là ollama pull. Đây là lệnh giúp tải một model từ kho model về hệ thống local để có thể chạy bằng Ollama. Tuy nhiên, trong môi trường bệnh viện, việc tải model không nên thực hiện tùy tiện. Mỗi model có dung lượng lớn, yêu cầu tài nguyên khác nhau, chất lượng khác nhau và mục đích sử dụng khác nhau.
Nếu người quản trị tải nhiều model không có kế hoạch, ổ cứng có thể nhanh chóng đầy. Nếu tải model quá lớn so với GPU, model có thể chạy rất chậm hoặc không chạy được. Nếu tải model không rõ giấy phép, bệnh viện có thể gặp vấn đề khi tích hợp vào hệ thống nội bộ. Nếu tải model mà không ghi lại thông tin, sau này khó biết model nào đang được dùng, model nào là thử nghiệm, model nào đã lỗi thời.
Vì vậy, ollama pull là một lệnh đơn giản về mặt kỹ thuật, nhưng cần được đặt trong quy trình quản lý model rõ ràng.
2. ollama pull là gì?
ollama pull là lệnh dùng để tải model về máy chủ local. Cú pháp cơ bản:
ollama pull ten_model:tagVí dụ:
ollama pull qwen2.5:7bHoặc:
ollama pull gemma3:4bTrong đó:
ten_modellà tên model.taglà biến thể hoặc phiên bản model.- Nếu không ghi tag, Ollama có thể dùng tag mặc định, nhưng trong môi trường bệnh viện nên ghi rõ tag để dễ kiểm soát.
Sau khi tải xong, model được lưu trên máy chủ và có thể chạy bằng ollama run.
3. Vì sao phải ghi rõ tag?
Trong môi trường thử nghiệm cá nhân, người dùng có thể dùng tag mặc định như latest. Nhưng trong bệnh viện, nên hạn chế dùng latest cho hệ thống chính thức. Lý do là latest có thể thay đổi theo thời gian. Nếu hôm nay latest trỏ đến một phiên bản, sau này có thể trỏ đến phiên bản khác. Khi đó, kết quả trả lời có thể thay đổi mà người quản trị không nhận ra.
Nên dùng tên model rõ ràng kèm tag cụ thể. Ví dụ:
ollama pull qwen2.5:14bViệc ghi rõ tag giúp:
- Tài liệu hóa cấu hình dễ hơn.
- So sánh model chính xác hơn.
- Tránh thay đổi ngoài ý muốn.
- Dễ rollback khi cần.
- Dễ biết ứng dụng đang dùng model nào.
Trong bệnh viện, tính ổn định và truy vết quan trọng hơn sự tiện lợi của tag mặc định.
4. Kiểm tra dung lượng trước khi tải model
Trước khi tải model, cần kiểm tra dung lượng ổ cứng:
df -hNếu đã cấu hình thư mục model riêng, cần kiểm tra phân vùng chứa thư mục đó. Model có thể chiếm vài GB đến hàng chục GB. Nếu tải nhiều model, dung lượng tăng nhanh.
Cần lưu ý:
- Không nên để model làm đầy phân vùng root.
- Nên đặt model ở SSD/NVMe có dung lượng đủ.
- Cần theo dõi dung lượng sau mỗi lần tải.
- Cần xóa model thử nghiệm không còn dùng.
Nếu chưa cấu hình thư mục model, nên xem lại việc thiết lập OLLAMA_MODELS trước khi tải nhiều model.
5. Kiểm tra mạng trước khi tải
ollama pull cần kết nối Internet để tải model. Nếu máy chủ nằm trong mạng bệnh viện có firewall hoặc proxy, có thể gặp lỗi tải. Trước khi tải, kiểm tra:
ping -c 4 8.8.8.8ping -c 4 google.comNếu ping IP được nhưng không ping domain được, có thể lỗi DNS. Nếu không ra Internet, cần kiểm tra gateway, firewall hoặc proxy.
Trong một số bệnh viện, máy chủ AI local có thể không được phép ra Internet trực tiếp. Khi đó cần có phương án tải model qua máy trung gian, lưu trữ nội bộ hoặc kiểm duyệt file trước khi đưa vào máy chủ.
6. Chọn model trước khi tải
Trước khi chạy ollama pull, cần xác định mục đích:
- Tải để thử nghiệm hay dùng chính thức?
- Model dùng cho chatbot hay soạn thảo?
- Model dùng cho tiếng Việt hay tiếng Anh?
- Model dùng cho embedding hay sinh văn bản?
- Model có phù hợp GPU/VRAM không?
- Có cần model 7B/8B hay 14B?
- Có giấy phép phù hợp không?
- Ai sẽ đánh giá model sau khi tải?
Không nên tải model chỉ vì thấy tên mới. Một máy chủ AI bệnh viện nên có danh mục model rõ ràng.
7. Tải model thử nghiệm
Ví dụ tải một model nhỏ để kiểm tra hệ thống:
ollama pull gemma3:4bSau khi tải, kiểm tra danh sách:
ollama listChạy thử:
ollama run gemma3:4bNếu mục tiêu là kiểm tra nhanh máy chủ, nên bắt đầu với model nhỏ hoặc vừa. Sau khi hệ thống ổn định, mới tải model lớn hơn.
8. Tải model cho tác vụ chính
Với máy chủ có GPU 16GB VRAM, bệnh viện có thể ưu tiên thử các model 7B/8B và một số model 14B lượng tử hóa nếu phù hợp. Tuy nhiên, cần đo thực tế tốc độ và VRAM.
Quy trình đề xuất:
- Tải model 7B/8B.
- Test tiếng Việt.
- Test văn bản hành chính.
- Test RAG nếu có.
- Theo dõi GPU/RAM.
- Nếu chất lượng chưa đủ, thử model 14B.
- So sánh chất lượng và tốc độ.
- Chọn model chính thức.
Không nên tải ngay nhiều model lớn rồi không dùng.
9. Ghi lại nhật ký tải model
Mỗi lần tải model nên ghi lại:
- Ngày tải.
- Người tải.
- Tên model.
- Tag.
- Dung lượng.
- Mục đích.
- Dùng cho thử nghiệm hay chính thức.
- Kết quả kiểm tra ban đầu.
- Ghi chú giấy phép nếu cần.
Có thể lưu trong file Markdown, Excel, Google Sheet nội bộ hoặc hệ thống quản trị cấu hình.
Ví dụ bảng quản lý:
| Ngày | Model | Tag | Mục đích | Người tải | Trạng thái |
|---|---|---|---|---|---|
| 2026-05-17 | qwen2.5 | 7b | Test tiếng Việt | CNTT | Đang thử |
| 2026-05-17 | gemma3 | 4b | Test hệ thống | CNTT | Đã kiểm tra |
10. Lỗi thường gặp khi ollama pull
Một số lỗi có thể gặp:
10.1. Không tải được do mạng
Cần kiểm tra Internet, DNS, firewall, proxy.
10.2. Hết dung lượng ổ cứng
Kiểm tra df -h, xóa model không dùng, chuyển thư mục model.
10.3. Sai tên model hoặc tag
Cần kiểm tra lại tên model chính xác.
10.4. Tải chậm
Có thể do băng thông, firewall, proxy hoặc model quá lớn. Cần tải ngoài giờ cao điểm nếu ảnh hưởng mạng bệnh viện.
10.5. Quyền thư mục model sai
Nếu đã đổi OLLAMA_MODELS, cần kiểm tra quyền thư mục.
11. Nguyên tắc tải model trong bệnh viện
Bệnh viện nên áp dụng các nguyên tắc:
- Chỉ tải model có mục đích rõ.
- Ghi rõ tag, không phụ thuộc mơ hồ vào
latest. - Kiểm tra dung lượng trước và sau khi tải.
- Ghi nhật ký model.
- Test model trước khi đưa vào ứng dụng.
- Không tải model quá lớn nếu phần cứng không phù hợp.
- Không dùng model chính thức khi chưa đánh giá.
- Xóa model thử nghiệm nếu không còn dùng.
- Không để người dùng không có trách nhiệm tự tải model lên máy chủ chính thức.
12. Kết luận
ollama pull là lệnh cơ bản để tải model về máy chủ AI local. Tuy nhiên, trong bệnh viện, việc tải model phải có quản lý: chọn đúng model, ghi rõ tag, kiểm tra dung lượng, kiểm tra mạng, ghi nhật ký và đánh giá trước khi sử dụng. Một hệ thống AI local ổn định bắt đầu từ việc quản lý model có kỷ luật.
- Đăng nhập để gửi ý kiến