1. Đặt vấn đề
Sau khi cài Ollama, cần kiểm tra dịch vụ hoạt động ổn định. Không nên chỉ chạy thử một câu rồi kết luận hệ thống đã sẵn sàng. Dịch vụ Ollama cần được kiểm tra ở nhiều mức: service systemd, API, model đã tải, khả năng chạy model, GPU, log, port, tài nguyên và khả năng tự khởi động sau reboot.
Trong bệnh viện, kiểm tra dịch vụ là bước quan trọng để bảo đảm hệ thống có thể vận hành lâu dài, không phụ thuộc vào một terminal đang mở.
2. Kiểm tra trạng thái service
Lệnh cơ bản:
systemctl status ollamaCần xem:
- Service có active không.
- Có lỗi không.
- Thời gian chạy.
- User chạy service.
- Log gần nhất.
- Service có bị restart liên tục không.
Nếu service không chạy:
sudo systemctl start ollamaNếu muốn tự khởi động:
sudo systemctl enable ollama3. Kiểm tra log service
Log giúp phát hiện lỗi. Dùng:
journalctl -u ollama -n 100 --no-pagerTheo dõi realtime:
journalctl -u ollama -fCần xem:
- Lỗi tải model.
- Lỗi GPU.
- Lỗi permission.
- Lỗi thư mục model.
- Lỗi port.
- Lỗi thiếu RAM/VRAM.
- Lỗi service restart.
Trong bệnh viện, log cần được kiểm soát quyền xem nếu có chứa thông tin nhạy cảm.
4. Kiểm tra API tags
Kiểm tra API nội bộ:
curl http://127.0.0.1:11434/api/tagsNếu API trả danh sách model, Ollama đang phục vụ API.
Nếu không trả lời, cần kiểm tra service, port, firewall và log.
5. Kiểm tra model đã tải
Dùng:
ollama listLệnh này hiển thị các model đã cài. Cần kiểm tra:
- Model có đúng tên không.
- Dung lượng model.
- Thời điểm cập nhật.
- Có model không dùng cần xóa không.
Nếu chưa có model, cần ollama pull.
6. Chạy thử model
Dùng:
ollama run model_nameVí dụ:
ollama run gemma3:4bHỏi thử:
Hãy trả lời ngắn gọn bằng tiếng Việt: AI local là gì?Cần đánh giá:
- Model có phản hồi không.
- Tốc độ có chấp nhận được không.
- Tiếng Việt có ổn không.
- Có lỗi giữa chừng không.
- Có dùng GPU không.
7. Kiểm tra GPU khi model chạy
Trong lúc model chạy:
nvidia-smiCần xem:
- Tiến trình Ollama có xuất hiện không.
- VRAM sử dụng bao nhiêu.
- GPU utilization.
- Nhiệt độ GPU.
- Công suất.
Nếu không thấy GPU dùng, model có thể đang chạy CPU. Khi đó cần kiểm tra driver, cấu hình Ollama và log.
8. Kiểm tra model đang chạy
Có thể dùng:
ollama psLệnh này giúp xem model nào đang được nạp, dùng tài nguyên gì, còn giữ trong bộ nhớ bao lâu. Điều này hữu ích khi cần biết model có đang chiếm VRAM không.
Nếu cần giải phóng tài nguyên, có thể dừng hoặc để model timeout theo cấu hình.
9. Kiểm tra port listen
Dùng:
ss -tulpn | grep 11434Cần xác định Ollama listen ở đâu:
127.0.0.1:11434: chỉ máy chủ truy cập.0.0.0.0:11434: các máy khác có thể truy cập nếu firewall cho phép.- IP cụ thể trong LAN: chỉ listen trên IP đó.
Trong bệnh viện, giai đoạn đầu nên ưu tiên localhost. Nếu mở LAN, cần firewall và API trung gian.
10. Kiểm tra sau reboot
Một service đúng phải tự chạy sau reboot. Kiểm tra bằng cách reboot có kiểm soát:
sudo rebootSau khi máy lên:
systemctl status ollamacurl http://127.0.0.1:11434/api/tagsNếu service không tự chạy, cần:
sudo systemctl enable ollama11. Kiểm tra hiệu năng cơ bản
Có thể test một số prompt:
- Câu hỏi ngắn.
- Câu hỏi dài.
- Tóm tắt đoạn văn.
- Viết văn bản hành chính.
- Trả lời tiếng Việt.
- Prompt có tài liệu đính kèm ngắn.
Ghi nhận:
- Thời gian phản hồi.
- Tốc độ sinh token.
- RAM/VRAM sử dụng.
- Nhiệt độ GPU.
- Lỗi nếu có.
Đây là cơ sở để chọn model và cấu hình tiếp theo.
12. Kết luận
Kiểm tra dịch vụ Ollama cần thực hiện ở nhiều mức: systemd, log, API, model, GPU, port, reboot và hiệu năng cơ bản. Trong bệnh viện, bước kiểm tra này giúp bảo đảm hệ thống không chỉ chạy thử được, mà có khả năng vận hành như một dịch vụ nội bộ ổn định.
- Đăng nhập để gửi ý kiến