Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "HI.AI Members" các nội dung bạn quan tâm.

Bài 2. Quản lý model đã tải

1. Đặt vấn đề

Sau một thời gian thử nghiệm, máy chủ AI local thường có nhiều model đã tải: model nhỏ, model lớn, model embedding, model chuyên code, model thử nghiệm, model không còn dùng. Nếu không quản lý, dung lượng ổ cứng sẽ tăng nhanh, danh sách model rối, người dùng hoặc API có thể gọi nhầm model, và việc backup/cập nhật trở nên khó kiểm soát.

Quản lý model đã tải là công việc vận hành cần làm định kỳ.

2. Xem danh sách model

Dùng:

 
ollama list
 

Thông tin thường gồm:

  • Tên model.
  • ID/digest.
  • Kích thước.
  • Thời gian cập nhật.

Cần lập danh sách model nào đang dùng chính thức, model nào thử nghiệm, model nào có thể xóa.

3. Phân loại model

Nên phân loại:

Model sản xuất

Đang được chatbot/API chính thức sử dụng.

Model thử nghiệm

Dùng để benchmark, chưa triển khai.

Model chuyên biệt

Dành cho CNTT, QLCL, KHTH, embedding, code.

Model cũ

Không còn dùng, có thể xóa sau khi xác nhận.

Model lớn

Tốn nhiều dung lượng và VRAM, cần quản lý chặt.

4. Đặt tên model tùy biến

Khi tạo model bằng Modelfile, nên đặt tên rõ:

 
bv-qlcl:latest
bv-khth:latest
bv-dieuduong:latest
bv-cntt:latest
bv-fast:latest
bv-deep:latest
 

Tên model nên phản ánh vai trò, không nên đặt tên tùy tiện khó hiểu.

5. Kiểm tra model nào đang chạy

Dùng:

 
ollama ps
 

Nếu model đang loaded nhưng không cần thiết, có thể để Ollama tự unload theo thời gian hoặc điều chỉnh cấu hình keep-alive thông qua API/ứng dụng nếu cần.

6. Tải model mới

Dùng:

 
ollama pull ten-model
 

Ví dụ:

 
ollama pull gemma3:4b
 

Trước khi tải model mới, cần kiểm tra:

  • Dung lượng ổ cứng.
  • VRAM/RAM có phù hợp không.
  • Mục đích sử dụng.
  • Có cần benchmark không.
  • Có trùng với model hiện có không.

7. Xóa model không dùng

Dùng:

 
ollama rm ten-model
 

Ví dụ:

 
ollama rm llama3:latest
 

Trước khi xóa cần kiểm tra:

  • API có đang dùng model này không?
  • Modelfile tùy biến có phụ thuộc model này không?
  • Có cần backup không?
  • Có còn trong tài liệu vận hành không?
  • Có đang loaded không?

Không nên xóa model sản xuất khi chưa cập nhật cấu hình ứng dụng.

8. Quản lý model mặc định

API trung gian nên quy định model mặc định theo tác vụ. Không nên để người dùng tự chọn mọi model nếu không cần. Ví dụ:

  • Tra cứu nhanh: bv-fast.
  • QLCL: bv-qlcl.
  • KHTH: bv-khth.
  • CNTT: bv-cntt.
  • Phân tích sâu: bv-deep.

Điều này giúp kiểm soát hiệu năng và chất lượng.

9. Quản lý phiên bản model

Không nên chỉ dùng latest mà không ghi nhận phiên bản thực tế. Cần lưu:

  • Tên model.
  • Digest.
  • Ngày tải.
  • Người tải.
  • Mục đích.
  • Kết quả benchmark.
  • Model dùng trong ứng dụng nào.
  • Ngày thay đổi model mặc định.

Nếu một model mới trả lời kém hơn, cần biết cách rollback.

10. Danh mục model vận hành

Nên có file hoặc trang tài liệu nội bộ:

ModelVai tròTrạng tháiDung lượngContextNgười phụ tráchGhi chú

Danh mục này giúp phòng CNTT và các đơn vị phối hợp biết hệ thống đang dùng gì.

11. Kết luận

Quản lý model đã tải giúp hệ thống Ollama gọn, rõ, tiết kiệm dung lượng và tránh gọi nhầm model. Bệnh viện cần phân loại model, đặt tên rõ, kiểm soát model sản xuất, xóa model không dùng, ghi nhận phiên bản và lập danh mục vận hành. Model là tài sản kỹ thuật của hệ thống AI local, cần được quản trị như các thành phần phần mềm khác.