Phụ lục 1. Các lệnh Ollama thường dùng

1. Kiểm tra Ollama đã cài chưa

ollama --version

Nếu có phiên bản trả về, Ollama đã được cài đặt.

2. Kiểm tra dịch vụ Ollama trên Ubuntu Server

systemctl status ollama

Khởi động dịch vụ:

sudo systemctl start ollama

Dừng dịch vụ:

sudo systemctl stop ollama

Khởi động lại dịch vụ:

sudo systemctl restart ollama

Bật tự khởi động cùng hệ thống:

sudo systemctl enable ollama

Kiểm tra dịch vụ có được bật tự khởi động không:

systemctl is-enabled ollama

3. Xem log Ollama

Xem log realtime:

journalctl -u ollama -f

Xem 100 dòng log gần nhất:

journalctl -u ollama -n 100

4. Kiểm tra API Ollama local

curl http://127.0.0.1:11434/api/tags

Nếu API hoạt động, hệ thống sẽ trả danh sách model đã tải.

5. Xem danh sách model đã tải

ollama list

Ví dụ kết quả có thể gồm:

NAME          ID              SIZE      MODIFIED
gemma3:4b     a2af6cc3eb7f    3.3 GB    2 weeks ago
qwen2.5:7b    abcdef123456    4.7 GB    1 week ago

6. Tải model mới

ollama pull ten-model

Ví dụ:

ollama pull gemma3:4b

ollama pull qwen2.5:7b

7. Chạy model để hỏi trực tiếp

ollama run gemma3:4b

Sau đó nhập câu hỏi trực tiếp trong terminal.

8. Xóa model không dùng

ollama rm ten-model

Ví dụ:

ollama rm llama3:latest

9. Kiểm tra model đang chạy

ollama ps

Lệnh này giúp xem model nào đang loaded, dùng CPU/GPU, kích thước và thời gian còn giữ trong bộ nhớ.

10. Tạo model tùy biến từ Modelfile

Ví dụ có file:

Modelfile

Tạo model:

ollama create bv-assistant -f Modelfile

Chạy model vừa tạo:

ollama run bv-assistant

11. Gọi API sinh văn bản

curl http://127.0.0.1:11434/api/generate \
  -d '{
    "model": "gemma3:4b",
    "prompt": "Viết đoạn giới thiệu ngắn về AI local trong bệnh viện.",
    "stream": false
  }'

12. Gọi API chat

curl http://127.0.0.1:11434/api/chat \
  -d '{
    "model": "gemma3:4b",
    "messages": [
      {
        "role": "system",
        "content": "Bạn là trợ lý AI nội bộ bệnh viện."
      },
      {
        "role": "user",
        "content": "Hãy tạo dàn ý kế hoạch cải tiến chất lượng bệnh viện."
      }
    ],
    "stream": false
  }'

13. Gọi API embedding

curl http://127.0.0.1:11434/api/embeddings \
  -d '{
    "model": "ten-embedding-model",
    "prompt": "Quy trình báo cáo sự cố y khoa trong bệnh viện"
  }'

14. Kiểm tra GPU khi Ollama chạy

watch -n 1 nvidia-smi

Khi model sinh câu trả lời, GPU utilization và VRAM usage thường tăng nếu model dùng GPU.

Đăng nhập để gửi ý kiến