Bài 2. Quản lý model đã tải

1. Đặt vấn đề

Sau một thời gian thử nghiệm, máy chủ AI local thường có nhiều model đã tải: model nhỏ, model lớn, model embedding, model chuyên code, model thử nghiệm, model không còn dùng. Nếu không quản lý, dung lượng ổ cứng sẽ tăng nhanh, danh sách model rối, người dùng hoặc API có thể gọi nhầm model, và việc backup/cập nhật trở nên khó kiểm soát.

Quản lý model đã tải là công việc vận hành cần làm định kỳ.

2. Xem danh sách model

Dùng:

ollama list

Thông tin thường gồm:

Tên model.
ID/digest.
Kích thước.
Thời gian cập nhật.

Cần lập danh sách model nào đang dùng chính thức, model nào thử nghiệm, model nào có thể xóa.

3. Phân loại model

Nên phân loại:

Model sản xuất

Đang được chatbot/API chính thức sử dụng.

Model thử nghiệm

Dùng để benchmark, chưa triển khai.

Model chuyên biệt

Dành cho CNTT, QLCL, KHTH, embedding, code.

Model cũ

Không còn dùng, có thể xóa sau khi xác nhận.

Model lớn

Tốn nhiều dung lượng và VRAM, cần quản lý chặt.

4. Đặt tên model tùy biến

Khi tạo model bằng Modelfile, nên đặt tên rõ:

bv-qlcl:latest
bv-khth:latest
bv-dieuduong:latest
bv-cntt:latest
bv-fast:latest
bv-deep:latest

Tên model nên phản ánh vai trò, không nên đặt tên tùy tiện khó hiểu.

5. Kiểm tra model nào đang chạy

Dùng:

ollama ps

Nếu model đang loaded nhưng không cần thiết, có thể để Ollama tự unload theo thời gian hoặc điều chỉnh cấu hình keep-alive thông qua API/ứng dụng nếu cần.

6. Tải model mới

Dùng:

ollama pull ten-model

Ví dụ:

ollama pull gemma3:4b

Trước khi tải model mới, cần kiểm tra:

Dung lượng ổ cứng.
VRAM/RAM có phù hợp không.
Mục đích sử dụng.
Có cần benchmark không.
Có trùng với model hiện có không.

7. Xóa model không dùng

Dùng:

ollama rm ten-model

Ví dụ:

ollama rm llama3:latest

Trước khi xóa cần kiểm tra:

API có đang dùng model này không?
Modelfile tùy biến có phụ thuộc model này không?
Có cần backup không?
Có còn trong tài liệu vận hành không?
Có đang loaded không?

Không nên xóa model sản xuất khi chưa cập nhật cấu hình ứng dụng.

8. Quản lý model mặc định

API trung gian nên quy định model mặc định theo tác vụ. Không nên để người dùng tự chọn mọi model nếu không cần. Ví dụ:

Tra cứu nhanh: bv-fast.
QLCL: bv-qlcl.
KHTH: bv-khth.
CNTT: bv-cntt.
Phân tích sâu: bv-deep.

Điều này giúp kiểm soát hiệu năng và chất lượng.

9. Quản lý phiên bản model

Không nên chỉ dùng latest mà không ghi nhận phiên bản thực tế. Cần lưu:

Tên model.
Digest.
Ngày tải.
Người tải.
Mục đích.
Kết quả benchmark.
Model dùng trong ứng dụng nào.
Ngày thay đổi model mặc định.

Nếu một model mới trả lời kém hơn, cần biết cách rollback.

10. Danh mục model vận hành

Nên có file hoặc trang tài liệu nội bộ:

Model	Vai trò	Trạng thái	Dung lượng	Context	Người phụ trách	Ghi chú

Danh mục này giúp phòng CNTT và các đơn vị phối hợp biết hệ thống đang dùng gì.

11. Kết luận

Quản lý model đã tải giúp hệ thống Ollama gọn, rõ, tiết kiệm dung lượng và tránh gọi nhầm model. Bệnh viện cần phân loại model, đặt tên rõ, kiểm soát model sản xuất, xóa model không dùng, ghi nhận phiên bản và lập danh mục vận hành. Model là tài sản kỹ thuật của hệ thống AI local, cần được quản trị như các thành phần phần mềm khác.

Đăng nhập để gửi ý kiến

1. Đặt vấn đề

2. Xem danh sách model

3. Phân loại model

Model sản xuất

Model thử nghiệm

Model chuyên biệt

Model cũ

Model lớn

4. Đặt tên model tùy biến

5. Kiểm tra model nào đang chạy

6. Tải model mới

7. Xóa model không dùng

8. Quản lý model mặc định

9. Quản lý phiên bản model

10. Danh mục model vận hành

11. Kết luận

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Bài nổi bật

Thúy Hường

Câu hỏi, thảo luận