1. Kiểm tra Ollama đã cài chưa
ollama --versionNếu có phiên bản trả về, Ollama đã được cài đặt.
2. Kiểm tra dịch vụ Ollama trên Ubuntu Server
systemctl status ollamaKhởi động dịch vụ:
sudo systemctl start ollamaDừng dịch vụ:
sudo systemctl stop ollamaKhởi động lại dịch vụ:
sudo systemctl restart ollamaBật tự khởi động cùng hệ thống:
sudo systemctl enable ollamaKiểm tra dịch vụ có được bật tự khởi động không:
systemctl is-enabled ollama3. Xem log Ollama
Xem log realtime:
journalctl -u ollama -fXem 100 dòng log gần nhất:
journalctl -u ollama -n 1004. Kiểm tra API Ollama local
curl http://127.0.0.1:11434/api/tagsNếu API hoạt động, hệ thống sẽ trả danh sách model đã tải.
5. Xem danh sách model đã tải
ollama listVí dụ kết quả có thể gồm:
NAME ID SIZE MODIFIEDgemma3:4b a2af6cc3eb7f 3.3 GB 2 weeks agoqwen2.5:7b abcdef123456 4.7 GB 1 week ago
6. Tải model mới
ollama pull ten-modelVí dụ:
ollama pull gemma3:4bollama pull qwen2.5:7b7. Chạy model để hỏi trực tiếp
ollama run gemma3:4bSau đó nhập câu hỏi trực tiếp trong terminal.
8. Xóa model không dùng
ollama rm ten-modelVí dụ:
ollama rm llama3:latest9. Kiểm tra model đang chạy
ollama psLệnh này giúp xem model nào đang loaded, dùng CPU/GPU, kích thước và thời gian còn giữ trong bộ nhớ.
10. Tạo model tùy biến từ Modelfile
Ví dụ có file:
ModelfileTạo model:
ollama create bv-assistant -f ModelfileChạy model vừa tạo:
ollama run bv-assistant11. Gọi API sinh văn bản
curl http://127.0.0.1:11434/api/generate \-d '{"model": "gemma3:4b","prompt": "Viết đoạn giới thiệu ngắn về AI local trong bệnh viện.","stream": false}'
12. Gọi API chat
curl http://127.0.0.1:11434/api/chat \-d '{"model": "gemma3:4b","messages": [{"role": "system","content": "Bạn là trợ lý AI nội bộ bệnh viện."},{"role": "user","content": "Hãy tạo dàn ý kế hoạch cải tiến chất lượng bệnh viện."}],"stream": false}'
13. Gọi API embedding
curl http://127.0.0.1:11434/api/embeddings \-d '{"model": "ten-embedding-model","prompt": "Quy trình báo cáo sự cố y khoa trong bệnh viện"}'
14. Kiểm tra GPU khi Ollama chạy
watch -n 1 nvidia-smiKhi model sinh câu trả lời, GPU utilization và VRAM usage thường tăng nếu model dùng GPU.
- Đăng nhập để gửi ý kiến