1. Đặt vấn đề
Sau một thời gian thử nghiệm, máy chủ AI local thường có nhiều model đã tải: model nhỏ, model lớn, model embedding, model chuyên code, model thử nghiệm, model không còn dùng. Nếu không quản lý, dung lượng ổ cứng sẽ tăng nhanh, danh sách model rối, người dùng hoặc API có thể gọi nhầm model, và việc backup/cập nhật trở nên khó kiểm soát.
Quản lý model đã tải là công việc vận hành cần làm định kỳ.
2. Xem danh sách model
Dùng:
ollama listThông tin thường gồm:
- Tên model.
- ID/digest.
- Kích thước.
- Thời gian cập nhật.
Cần lập danh sách model nào đang dùng chính thức, model nào thử nghiệm, model nào có thể xóa.
3. Phân loại model
Nên phân loại:
Model sản xuất
Đang được chatbot/API chính thức sử dụng.
Model thử nghiệm
Dùng để benchmark, chưa triển khai.
Model chuyên biệt
Dành cho CNTT, QLCL, KHTH, embedding, code.
Model cũ
Không còn dùng, có thể xóa sau khi xác nhận.
Model lớn
Tốn nhiều dung lượng và VRAM, cần quản lý chặt.
4. Đặt tên model tùy biến
Khi tạo model bằng Modelfile, nên đặt tên rõ:
bv-qlcl:latestbv-khth:latestbv-dieuduong:latestbv-cntt:latestbv-fast:latestbv-deep:latest
Tên model nên phản ánh vai trò, không nên đặt tên tùy tiện khó hiểu.
5. Kiểm tra model nào đang chạy
Dùng:
ollama psNếu model đang loaded nhưng không cần thiết, có thể để Ollama tự unload theo thời gian hoặc điều chỉnh cấu hình keep-alive thông qua API/ứng dụng nếu cần.
6. Tải model mới
Dùng:
ollama pull ten-modelVí dụ:
ollama pull gemma3:4bTrước khi tải model mới, cần kiểm tra:
- Dung lượng ổ cứng.
- VRAM/RAM có phù hợp không.
- Mục đích sử dụng.
- Có cần benchmark không.
- Có trùng với model hiện có không.
7. Xóa model không dùng
Dùng:
ollama rm ten-modelVí dụ:
ollama rm llama3:latestTrước khi xóa cần kiểm tra:
- API có đang dùng model này không?
- Modelfile tùy biến có phụ thuộc model này không?
- Có cần backup không?
- Có còn trong tài liệu vận hành không?
- Có đang loaded không?
Không nên xóa model sản xuất khi chưa cập nhật cấu hình ứng dụng.
8. Quản lý model mặc định
API trung gian nên quy định model mặc định theo tác vụ. Không nên để người dùng tự chọn mọi model nếu không cần. Ví dụ:
- Tra cứu nhanh:
bv-fast. - QLCL:
bv-qlcl. - KHTH:
bv-khth. - CNTT:
bv-cntt. - Phân tích sâu:
bv-deep.
Điều này giúp kiểm soát hiệu năng và chất lượng.
9. Quản lý phiên bản model
Không nên chỉ dùng latest mà không ghi nhận phiên bản thực tế. Cần lưu:
- Tên model.
- Digest.
- Ngày tải.
- Người tải.
- Mục đích.
- Kết quả benchmark.
- Model dùng trong ứng dụng nào.
- Ngày thay đổi model mặc định.
Nếu một model mới trả lời kém hơn, cần biết cách rollback.
10. Danh mục model vận hành
Nên có file hoặc trang tài liệu nội bộ:
| Model | Vai trò | Trạng thái | Dung lượng | Context | Người phụ trách | Ghi chú |
|---|
Danh mục này giúp phòng CNTT và các đơn vị phối hợp biết hệ thống đang dùng gì.
11. Kết luận
Quản lý model đã tải giúp hệ thống Ollama gọn, rõ, tiết kiệm dung lượng và tránh gọi nhầm model. Bệnh viện cần phân loại model, đặt tên rõ, kiểm soát model sản xuất, xóa model không dùng, ghi nhận phiên bản và lập danh mục vận hành. Model là tài sản kỹ thuật của hệ thống AI local, cần được quản trị như các thành phần phần mềm khác.
- Đăng nhập để gửi ý kiến