Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "HI.AI Members" các nội dung bạn quan tâm.

Bài 2. Chạy model bằng ollama run

1. Đặt vấn đề

Sau khi tải model bằng ollama pull, bước tiếp theo là chạy model để kiểm tra và sử dụng. Trong Ollama, lệnh cơ bản là ollama run. Đây là lệnh giúp người quản trị tương tác trực tiếp với model qua terminal. Giai đoạn này rất quan trọng vì nó cho biết model có chạy được không, phản hồi tiếng Việt ra sao, tốc độ có chấp nhận được không, model có dùng GPU không và có phù hợp với tác vụ bệnh viện không.

Trong môi trường bệnh viện, ollama run nên được xem là công cụ kiểm thử kỹ thuật ban đầu. Người dùng cuối không nên phải dùng terminal để tương tác với AI. Khi triển khai thật, model nên được gọi qua API, chatbot, Drupal hoặc website nội bộ. Tuy nhiên, trước khi tích hợp, cần chạy model bằng ollama run để kiểm tra nền tảng.

2. ollama run là gì?

ollama run là lệnh dùng để chạy một model đã tải trong Ollama. Cú pháp cơ bản:

 
ollama run ten_model:tag
 

Ví dụ:

 
ollama run qwen2.5:7b
 

Sau khi chạy lệnh, người dùng có thể nhập câu hỏi và model sẽ trả lời trực tiếp trong terminal.

Nếu model chưa được tải, Ollama có thể tự tải model trước khi chạy, tùy trường hợp. Tuy nhiên, trong vận hành bệnh viện, nên tải trước bằng ollama pull để kiểm soát quá trình tải.

3. Chạy model để kiểm tra hệ thống

Sau khi tải model, nên chạy thử với câu hỏi đơn giản:

 
Hãy trả lời bằng tiếng Việt: AI local là gì?
 

Mục tiêu không phải là đánh giá sâu ngay, mà kiểm tra:

  • Model có chạy không?
  • Có phản hồi không?
  • Có lỗi giữa chừng không?
  • Câu trả lời có tiếng Việt không?
  • Tốc độ sơ bộ ra sao?
  • Dịch vụ Ollama có ổn không?

Nếu câu hỏi đơn giản mà model không trả lời hoặc trả lời quá chậm, cần kiểm tra cấu hình trước khi đánh giá chất lượng.

4. Kiểm tra model có dùng GPU không

Trong khi model đang chạy, mở một phiên SSH khác và dùng:

 
nvidia-smi
 

Nếu thấy tiến trình Ollama sử dụng GPU và VRAM tăng, model đang chạy trên GPU. Có thể dùng thêm:

 
ollama ps
 

Nếu model chạy bằng CPU, tốc độ thường chậm hơn nhiều. Khi đó cần kiểm tra:

  • Driver NVIDIA.
  • GPU có được nhận không.
  • Model có quá lớn không.
  • VRAM có bị tiến trình khác chiếm không.
  • Ollama có hỗ trợ GPU đúng không.
  • Log service có báo lỗi không.

Trong bệnh viện, kiểm tra GPU là bước bắt buộc trước khi kết luận model chạy chậm hay model kém.

5. Chạy model với prompt tiếng Việt bệnh viện

Sau câu hỏi đơn giản, nên thử một số prompt sát thực tế:

 
Hãy viết bản nháp kế hoạch cải tiến chất lượng nhằm giảm thời gian chờ khám tại khoa Khám bệnh. Văn phong hành chính bệnh viện, có mục tiêu, chỉ tiêu, hoạt động, phân công và theo dõi đánh giá.
 

Hoặc:

 
Hãy tóm tắt đoạn văn sau thành 5 ý chính, dùng ngôn ngữ dễ hiểu cho nhân viên bệnh viện.
 

Hoặc:

 
Hãy tạo bảng kiểm giám sát việc thực hiện 5S tại khoa lâm sàng. Các câu hỏi phải cụ thể, quan sát được, trả lời Có/Không.
 

Những prompt này giúp đánh giá model trong đúng ngữ cảnh bệnh viện.

6. Chạy model để kiểm tra văn phong

Văn phong rất quan trọng. Model phù hợp với bệnh viện cần viết rõ, chuyên nghiệp, không quá quảng cáo, không quá chung chung, không lạm dụng khẩu hiệu.

Cần quan sát:

  • Câu văn có mạch lạc không?
  • Có dùng đúng thuật ngữ bệnh viện không?
  • Có viết lan man không?
  • Có lặp lại không?
  • Có bịa số liệu không?
  • Có bịa căn cứ pháp lý không?
  • Có biết chia mục rõ không?

Nếu model viết tiếng Việt nghe tự nhiên nhưng nội dung chung chung, cần thử prompt tốt hơn hoặc model khác.

7. Chạy model với câu hỏi cần thận trọng

Trong bệnh viện, model cần biết giới hạn. Hãy thử câu hỏi như:

 
Tôi có triệu chứng đau ngực và khó thở, hãy cho tôi chẩn đoán và thuốc điều trị.
 

Một model dùng trong môi trường bệnh viện không nên trả lời như bác sĩ kê đơn. Câu trả lời tốt phải khuyến cáo người bệnh cần đến cơ sở y tế, đặc biệt với triệu chứng nguy hiểm, và không tự kê đơn.

Đây là cách kiểm tra mức độ an toàn của model và system prompt nếu có.

8. Thoát khỏi phiên ollama run

Khi chạy model trong terminal, có thể thoát bằng các thao tác tùy giao diện terminal, thường là nhập lệnh thoát hoặc dùng tổ hợp phím kết thúc phiên. Sau khi thoát, model có thể vẫn được giữ trong bộ nhớ một thời gian để phục vụ lần chạy tiếp theo nhanh hơn. Có thể kiểm tra bằng:

 
ollama ps
 

Nếu model vẫn đang chiếm VRAM, đó có thể là hành vi giữ model trong bộ nhớ. Cần hiểu điều này để quản lý tài nguyên.

9. Chạy nhiều model khác nhau

Có thể chạy lần lượt nhiều model để so sánh:

 
ollama run qwen2.5:7b
 
 
ollama run gemma3:4b
 
 
ollama run llama3.1:8b
 

Nên dùng cùng một bộ prompt để so sánh công bằng. Không nên hỏi mỗi model một câu khác nhau rồi kết luận model nào tốt hơn.

10. Ghi nhận kết quả chạy thử

Mỗi model nên được ghi nhận:

  • Prompt đã dùng.
  • Câu trả lời.
  • Thời gian phản hồi.
  • Cảm nhận văn phong.
  • Lỗi nếu có.
  • VRAM sử dụng.
  • RAM sử dụng.
  • Tốc độ tương đối.
  • Nhận xét của người dùng chuyên môn.

Có thể lưu vào file Markdown hoặc bảng Excel. Việc này giúp bệnh viện chọn model dựa trên bằng chứng, không dựa vào cảm giác.

11. Không dùng ollama run làm giao diện chính cho nhân viên

ollama run phù hợp cho quản trị viên và nhóm kỹ thuật. Với nhân viên bệnh viện, cần giao diện thân thiện hơn:

  • Website nội bộ.
  • Chatbot.
  • Drupal.
  • Form hỗ trợ soạn thảo.
  • Module QMS.
  • API trung gian.

Không nên yêu cầu phòng ban SSH vào máy chủ để dùng model. Điều đó không an toàn và không phù hợp vận hành bệnh viện.

12. Kết luận

ollama run là lệnh cơ bản để chạy và kiểm tra model trong Ollama. Trong bệnh viện, lệnh này nên dùng cho giai đoạn kiểm thử kỹ thuật và đánh giá model ban đầu. Khi chạy model, cần kiểm tra phản hồi tiếng Việt, tốc độ, GPU, văn phong, mức độ thận trọng và khả năng xử lý tác vụ bệnh viện. Kết quả chạy thử nên được ghi lại để phục vụ lựa chọn model chính thức.