Chương 7. Làm việc với model trong Ollama

Giới thiệu chương

Sau khi đã cài đặt Ollama và lựa chọn được một số model phù hợp, bệnh viện cần biết cách làm việc trực tiếp với model trong môi trường Ollama. Đây là phần chuyển từ “cài đặt hệ thống” sang “vận hành model hằng ngày”. Nếu Chương 5 tập trung vào cài đặt Ollama trên máy chủ và Chương 6 tập trung vào lựa chọn model, thì Chương 7 tập trung vào các thao tác thực tế: tải model, chạy model, liệt kê model đã cài, xóa model không sử dụng, cập nhật model, kiểm tra tốc độ phản hồi, theo dõi mức sử dụng RAM/VRAM/CPU, so sánh kết quả giữa nhiều model và thiết lập model mặc định cho từng nhóm người dùng.

Trong môi trường bệnh viện, làm việc với model không nên được hiểu đơn giản là “thích model nào thì tải model đó”. Mỗi model tải về đều chiếm dung lượng ổ cứng, có thể chiếm RAM/VRAM khi chạy, có thể ảnh hưởng đến tốc độ hệ thống, và nếu được đưa vào ứng dụng nội bộ thì sẽ ảnh hưởng trực tiếp đến chất lượng câu trả lời của người dùng. Vì vậy, quản lý model phải được xem là một phần của quản trị vận hành hệ thống AI local.

Ollama cung cấp một bộ lệnh tương đối đơn giản, như ollama pull, ollama run, ollama list, ollama rm, ollama ps. Các lệnh này dễ học, nhưng khi áp dụng trong bệnh viện cần có nguyên tắc. Ví dụ, trước khi tải một model mới, cần biết model đó dùng cho mục đích gì, có phù hợp với GPU/VRAM hiện có không, có cần kiểm tra giấy phép không, có làm đầy ổ cứng không. Khi chạy model, cần kiểm tra model có dùng GPU không, tốc độ phản hồi ra sao, văn bản tiếng Việt có ổn không, có phù hợp với tác vụ bệnh viện không. Khi xóa model, cần chắc chắn không có ứng dụng nào đang dùng model đó. Khi cập nhật model, cần kiểm tra lại chất lượng trước khi đưa vào sử dụng thật.

Trong bệnh viện, một model có thể phục vụ nhiều nhóm công việc khác nhau: soạn thảo văn bản hành chính, hỗ trợ quản lý chất lượng, tra cứu quy trình nội bộ, hỗ trợ phòng Công nghệ thông tin, tóm tắt tài liệu, tạo câu hỏi đào tạo, hoặc làm LLM trong hệ thống RAG. Mỗi nhóm công việc có yêu cầu khác nhau về chất lượng, tốc độ, độ ổn định và mức độ an toàn. Do đó, Chương 7 cũng nhấn mạnh việc so sánh model bằng bộ câu hỏi thực tế của bệnh viện, không chỉ đánh giá bằng cảm nhận chủ quan.

Một điểm quan trọng nữa là theo dõi tài nguyên. Khi chạy AI local, người quản trị cần biết model đang sử dụng bao nhiêu VRAM, RAM, CPU; model có chạy trên GPU không; có bị đầy VRAM không; có làm máy chủ chậm không; nhiệt độ GPU có ổn không; tốc độ sinh token có chấp nhận được không. Đây là các thông tin bắt buộc để quyết định model nào phù hợp cho triển khai thật.

Chương này không chỉ hướng dẫn lệnh, mà còn giải thích tư duy vận hành model trong bệnh viện: tải có kế hoạch, chạy có kiểm tra, xóa có kiểm soát, cập nhật có đánh giá, so sánh có tiêu chí và phân nhóm model theo nhu cầu sử dụng. Khi nắm vững các nội dung này, bệnh viện có thể quản lý model AI local bài bản hơn, giảm rủi ro vận hành và chuẩn bị tốt cho các chương tiếp theo về Modelfile, API, chatbot và RAG.

Đăng nhập để gửi ý kiến

Chương 7. Làm việc với model trong Ollama

Giới thiệu chương

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

Câu hỏi, thảo luận