Bài 7. Kiểm tra dịch vụ Ollama

1. Đặt vấn đề

Sau khi cài Ollama, cần kiểm tra dịch vụ hoạt động ổn định. Không nên chỉ chạy thử một câu rồi kết luận hệ thống đã sẵn sàng. Dịch vụ Ollama cần được kiểm tra ở nhiều mức: service systemd, API, model đã tải, khả năng chạy model, GPU, log, port, tài nguyên và khả năng tự khởi động sau reboot.

Trong bệnh viện, kiểm tra dịch vụ là bước quan trọng để bảo đảm hệ thống có thể vận hành lâu dài, không phụ thuộc vào một terminal đang mở.

2. Kiểm tra trạng thái service

Lệnh cơ bản:

systemctl status ollama

Cần xem:

Service có active không.
Có lỗi không.
Thời gian chạy.
User chạy service.
Log gần nhất.
Service có bị restart liên tục không.

Nếu service không chạy:

sudo systemctl start ollama

Nếu muốn tự khởi động:

sudo systemctl enable ollama

3. Kiểm tra log service

Log giúp phát hiện lỗi. Dùng:

journalctl -u ollama -n 100 --no-pager

Theo dõi realtime:

journalctl -u ollama -f

Cần xem:

Lỗi tải model.
Lỗi GPU.
Lỗi permission.
Lỗi thư mục model.
Lỗi port.
Lỗi thiếu RAM/VRAM.
Lỗi service restart.

Trong bệnh viện, log cần được kiểm soát quyền xem nếu có chứa thông tin nhạy cảm.

4. Kiểm tra API tags

Kiểm tra API nội bộ:

curl http://127.0.0.1:11434/api/tags

Nếu API trả danh sách model, Ollama đang phục vụ API.

Nếu không trả lời, cần kiểm tra service, port, firewall và log.

5. Kiểm tra model đã tải

Dùng:

ollama list

Lệnh này hiển thị các model đã cài. Cần kiểm tra:

Model có đúng tên không.
Dung lượng model.
Thời điểm cập nhật.
Có model không dùng cần xóa không.

Nếu chưa có model, cần ollama pull.

6. Chạy thử model

Dùng:

ollama run model_name

Ví dụ:

ollama run gemma3:4b

Hỏi thử:

Hãy trả lời ngắn gọn bằng tiếng Việt: AI local là gì?

Cần đánh giá:

Model có phản hồi không.
Tốc độ có chấp nhận được không.
Tiếng Việt có ổn không.
Có lỗi giữa chừng không.
Có dùng GPU không.

7. Kiểm tra GPU khi model chạy

Trong lúc model chạy:

nvidia-smi

Cần xem:

Tiến trình Ollama có xuất hiện không.
VRAM sử dụng bao nhiêu.
GPU utilization.
Nhiệt độ GPU.
Công suất.

Nếu không thấy GPU dùng, model có thể đang chạy CPU. Khi đó cần kiểm tra driver, cấu hình Ollama và log.

8. Kiểm tra model đang chạy

Có thể dùng:

ollama ps

Lệnh này giúp xem model nào đang được nạp, dùng tài nguyên gì, còn giữ trong bộ nhớ bao lâu. Điều này hữu ích khi cần biết model có đang chiếm VRAM không.

Nếu cần giải phóng tài nguyên, có thể dừng hoặc để model timeout theo cấu hình.

9. Kiểm tra port listen

Dùng:

ss -tulpn | grep 11434

Cần xác định Ollama listen ở đâu:

127.0.0.1:11434: chỉ máy chủ truy cập.
0.0.0.0:11434: các máy khác có thể truy cập nếu firewall cho phép.
IP cụ thể trong LAN: chỉ listen trên IP đó.

Trong bệnh viện, giai đoạn đầu nên ưu tiên localhost. Nếu mở LAN, cần firewall và API trung gian.

10. Kiểm tra sau reboot

Một service đúng phải tự chạy sau reboot. Kiểm tra bằng cách reboot có kiểm soát:

sudo reboot

Sau khi máy lên:

systemctl status ollama

curl http://127.0.0.1:11434/api/tags

Nếu service không tự chạy, cần:

sudo systemctl enable ollama

11. Kiểm tra hiệu năng cơ bản

Có thể test một số prompt:

Câu hỏi ngắn.
Câu hỏi dài.
Tóm tắt đoạn văn.
Viết văn bản hành chính.
Trả lời tiếng Việt.
Prompt có tài liệu đính kèm ngắn.

Ghi nhận:

Thời gian phản hồi.
Tốc độ sinh token.
RAM/VRAM sử dụng.
Nhiệt độ GPU.
Lỗi nếu có.

Đây là cơ sở để chọn model và cấu hình tiếp theo.

12. Kết luận

Kiểm tra dịch vụ Ollama cần thực hiện ở nhiều mức: systemd, log, API, model, GPU, port, reboot và hiệu năng cơ bản. Trong bệnh viện, bước kiểm tra này giúp bảo đảm hệ thống không chỉ chạy thử được, mà có khả năng vận hành như một dịch vụ nội bộ ổn định.

Đăng nhập để gửi ý kiến

1. Đặt vấn đề

2. Kiểm tra trạng thái service

3. Kiểm tra log service

4. Kiểm tra API tags

5. Kiểm tra model đã tải

6. Chạy thử model

7. Kiểm tra GPU khi model chạy

8. Kiểm tra model đang chạy

9. Kiểm tra port listen

10. Kiểm tra sau reboot

11. Kiểm tra hiệu năng cơ bản

12. Kết luận

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

Câu hỏi, thảo luận