Bài 1. Tải model bằng ollama pull

1. Đặt vấn đề

Sau khi cài đặt Ollama, thao tác đầu tiên để sử dụng AI local là tải model về máy chủ. Trong Ollama, lệnh thường dùng là ollama pull. Đây là lệnh giúp tải một model từ kho model về hệ thống local để có thể chạy bằng Ollama. Tuy nhiên, trong môi trường bệnh viện, việc tải model không nên thực hiện tùy tiện. Mỗi model có dung lượng lớn, yêu cầu tài nguyên khác nhau, chất lượng khác nhau và mục đích sử dụng khác nhau.

Nếu người quản trị tải nhiều model không có kế hoạch, ổ cứng có thể nhanh chóng đầy. Nếu tải model quá lớn so với GPU, model có thể chạy rất chậm hoặc không chạy được. Nếu tải model không rõ giấy phép, bệnh viện có thể gặp vấn đề khi tích hợp vào hệ thống nội bộ. Nếu tải model mà không ghi lại thông tin, sau này khó biết model nào đang được dùng, model nào là thử nghiệm, model nào đã lỗi thời.

Vì vậy, ollama pull là một lệnh đơn giản về mặt kỹ thuật, nhưng cần được đặt trong quy trình quản lý model rõ ràng.

2. `ollama pull` là gì?

ollama pull là lệnh dùng để tải model về máy chủ local. Cú pháp cơ bản:

ollama pull ten_model:tag

Ví dụ:

ollama pull qwen2.5:7b

Hoặc:

ollama pull gemma3:4b

Trong đó:

ten_model là tên model.
tag là biến thể hoặc phiên bản model.
Nếu không ghi tag, Ollama có thể dùng tag mặc định, nhưng trong môi trường bệnh viện nên ghi rõ tag để dễ kiểm soát.

Sau khi tải xong, model được lưu trên máy chủ và có thể chạy bằng ollama run.

3. Vì sao phải ghi rõ tag?

Trong môi trường thử nghiệm cá nhân, người dùng có thể dùng tag mặc định như latest. Nhưng trong bệnh viện, nên hạn chế dùng latest cho hệ thống chính thức. Lý do là latest có thể thay đổi theo thời gian. Nếu hôm nay latest trỏ đến một phiên bản, sau này có thể trỏ đến phiên bản khác. Khi đó, kết quả trả lời có thể thay đổi mà người quản trị không nhận ra.

Nên dùng tên model rõ ràng kèm tag cụ thể. Ví dụ:

ollama pull qwen2.5:14b

Việc ghi rõ tag giúp:

Tài liệu hóa cấu hình dễ hơn.
So sánh model chính xác hơn.
Tránh thay đổi ngoài ý muốn.
Dễ rollback khi cần.
Dễ biết ứng dụng đang dùng model nào.

Trong bệnh viện, tính ổn định và truy vết quan trọng hơn sự tiện lợi của tag mặc định.

4. Kiểm tra dung lượng trước khi tải model

Trước khi tải model, cần kiểm tra dung lượng ổ cứng:

df -h

Nếu đã cấu hình thư mục model riêng, cần kiểm tra phân vùng chứa thư mục đó. Model có thể chiếm vài GB đến hàng chục GB. Nếu tải nhiều model, dung lượng tăng nhanh.

Cần lưu ý:

Không nên để model làm đầy phân vùng root.
Nên đặt model ở SSD/NVMe có dung lượng đủ.
Cần theo dõi dung lượng sau mỗi lần tải.
Cần xóa model thử nghiệm không còn dùng.

Nếu chưa cấu hình thư mục model, nên xem lại việc thiết lập OLLAMA_MODELS trước khi tải nhiều model.

5. Kiểm tra mạng trước khi tải

ollama pull cần kết nối Internet để tải model. Nếu máy chủ nằm trong mạng bệnh viện có firewall hoặc proxy, có thể gặp lỗi tải. Trước khi tải, kiểm tra:

ping -c 4 8.8.8.8

ping -c 4 google.com

Nếu ping IP được nhưng không ping domain được, có thể lỗi DNS. Nếu không ra Internet, cần kiểm tra gateway, firewall hoặc proxy.

Trong một số bệnh viện, máy chủ AI local có thể không được phép ra Internet trực tiếp. Khi đó cần có phương án tải model qua máy trung gian, lưu trữ nội bộ hoặc kiểm duyệt file trước khi đưa vào máy chủ.

6. Chọn model trước khi tải

Trước khi chạy ollama pull, cần xác định mục đích:

Tải để thử nghiệm hay dùng chính thức?
Model dùng cho chatbot hay soạn thảo?
Model dùng cho tiếng Việt hay tiếng Anh?
Model dùng cho embedding hay sinh văn bản?
Model có phù hợp GPU/VRAM không?
Có cần model 7B/8B hay 14B?
Có giấy phép phù hợp không?
Ai sẽ đánh giá model sau khi tải?

Không nên tải model chỉ vì thấy tên mới. Một máy chủ AI bệnh viện nên có danh mục model rõ ràng.

7. Tải model thử nghiệm

Ví dụ tải một model nhỏ để kiểm tra hệ thống:

ollama pull gemma3:4b

Sau khi tải, kiểm tra danh sách:

ollama list

Chạy thử:

ollama run gemma3:4b

Nếu mục tiêu là kiểm tra nhanh máy chủ, nên bắt đầu với model nhỏ hoặc vừa. Sau khi hệ thống ổn định, mới tải model lớn hơn.

8. Tải model cho tác vụ chính

Với máy chủ có GPU 16GB VRAM, bệnh viện có thể ưu tiên thử các model 7B/8B và một số model 14B lượng tử hóa nếu phù hợp. Tuy nhiên, cần đo thực tế tốc độ và VRAM.

Quy trình đề xuất:

Tải model 7B/8B.
Test tiếng Việt.
Test văn bản hành chính.
Test RAG nếu có.
Theo dõi GPU/RAM.
Nếu chất lượng chưa đủ, thử model 14B.
So sánh chất lượng và tốc độ.
Chọn model chính thức.

Không nên tải ngay nhiều model lớn rồi không dùng.

9. Ghi lại nhật ký tải model

Mỗi lần tải model nên ghi lại:

Ngày tải.
Người tải.
Tên model.
Tag.
Dung lượng.
Mục đích.
Dùng cho thử nghiệm hay chính thức.
Kết quả kiểm tra ban đầu.
Ghi chú giấy phép nếu cần.

Có thể lưu trong file Markdown, Excel, Google Sheet nội bộ hoặc hệ thống quản trị cấu hình.

Ví dụ bảng quản lý:

Ngày	Model	Tag	Mục đích	Người tải	Trạng thái
2026-05-17	qwen2.5	7b	Test tiếng Việt	CNTT	Đang thử
2026-05-17	gemma3	4b	Test hệ thống	CNTT	Đã kiểm tra

10. Lỗi thường gặp khi `ollama pull`

Một số lỗi có thể gặp:

10.1. Không tải được do mạng

Cần kiểm tra Internet, DNS, firewall, proxy.

10.2. Hết dung lượng ổ cứng

Kiểm tra df -h, xóa model không dùng, chuyển thư mục model.

10.3. Sai tên model hoặc tag

Cần kiểm tra lại tên model chính xác.

10.4. Tải chậm

Có thể do băng thông, firewall, proxy hoặc model quá lớn. Cần tải ngoài giờ cao điểm nếu ảnh hưởng mạng bệnh viện.

10.5. Quyền thư mục model sai

Nếu đã đổi OLLAMA_MODELS, cần kiểm tra quyền thư mục.

11. Nguyên tắc tải model trong bệnh viện

Bệnh viện nên áp dụng các nguyên tắc:

Chỉ tải model có mục đích rõ.
Ghi rõ tag, không phụ thuộc mơ hồ vào latest.
Kiểm tra dung lượng trước và sau khi tải.
Ghi nhật ký model.
Test model trước khi đưa vào ứng dụng.
Không tải model quá lớn nếu phần cứng không phù hợp.
Không dùng model chính thức khi chưa đánh giá.
Xóa model thử nghiệm nếu không còn dùng.
Không để người dùng không có trách nhiệm tự tải model lên máy chủ chính thức.

12. Kết luận

ollama pull là lệnh cơ bản để tải model về máy chủ AI local. Tuy nhiên, trong bệnh viện, việc tải model phải có quản lý: chọn đúng model, ghi rõ tag, kiểm tra dung lượng, kiểm tra mạng, ghi nhật ký và đánh giá trước khi sử dụng. Một hệ thống AI local ổn định bắt đầu từ việc quản lý model có kỷ luật.

Đăng nhập để gửi ý kiến

1. Đặt vấn đề

2. `ollama pull` là gì?

3. Vì sao phải ghi rõ tag?

4. Kiểm tra dung lượng trước khi tải model

5. Kiểm tra mạng trước khi tải

6. Chọn model trước khi tải

7. Tải model thử nghiệm

8. Tải model cho tác vụ chính

9. Ghi lại nhật ký tải model

10. Lỗi thường gặp khi `ollama pull`

10.1. Không tải được do mạng

10.2. Hết dung lượng ổ cứng

10.3. Sai tên model hoặc tag

10.4. Tải chậm

10.5. Quyền thư mục model sai

11. Nguyên tắc tải model trong bệnh viện

12. Kết luận

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

Câu hỏi, thảo luận

Bài 1. Tải model bằng ollama pull

1. Đặt vấn đề

2. ollama pull là gì?

3. Vì sao phải ghi rõ tag?

4. Kiểm tra dung lượng trước khi tải model

5. Kiểm tra mạng trước khi tải

6. Chọn model trước khi tải

7. Tải model thử nghiệm

8. Tải model cho tác vụ chính

9. Ghi lại nhật ký tải model

10. Lỗi thường gặp khi ollama pull

10.1. Không tải được do mạng

10.2. Hết dung lượng ổ cứng

10.3. Sai tên model hoặc tag

10.4. Tải chậm

10.5. Quyền thư mục model sai

11. Nguyên tắc tải model trong bệnh viện

12. Kết luận

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

2. `ollama pull` là gì?

10. Lỗi thường gặp khi `ollama pull`