Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "HI.AI Members" các nội dung bạn quan tâm.

Phụ lục 1. Các lệnh Ollama thường dùng

1. Kiểm tra Ollama đã cài chưa

 
ollama --version
 

Nếu có phiên bản trả về, Ollama đã được cài đặt.

2. Kiểm tra dịch vụ Ollama trên Ubuntu Server

 
systemctl status ollama
 

Khởi động dịch vụ:

 
sudo systemctl start ollama
 

Dừng dịch vụ:

 
sudo systemctl stop ollama
 

Khởi động lại dịch vụ:

 
sudo systemctl restart ollama
 

Bật tự khởi động cùng hệ thống:

 
sudo systemctl enable ollama
 

Kiểm tra dịch vụ có được bật tự khởi động không:

 
systemctl is-enabled ollama
 

3. Xem log Ollama

Xem log realtime:

 
journalctl -u ollama -f
 

Xem 100 dòng log gần nhất:

 
journalctl -u ollama -n 100
 

4. Kiểm tra API Ollama local

 
curl http://127.0.0.1:11434/api/tags
 

Nếu API hoạt động, hệ thống sẽ trả danh sách model đã tải.

5. Xem danh sách model đã tải

 
ollama list
 

Ví dụ kết quả có thể gồm:

 
NAME          ID              SIZE      MODIFIED
gemma3:4b a2af6cc3eb7f 3.3 GB 2 weeks ago
qwen2.5:7b abcdef123456 4.7 GB 1 week ago
 

6. Tải model mới

 
ollama pull ten-model
 

Ví dụ:

 
ollama pull gemma3:4b
 
 
ollama pull qwen2.5:7b
 

7. Chạy model để hỏi trực tiếp

 
ollama run gemma3:4b
 

Sau đó nhập câu hỏi trực tiếp trong terminal.

8. Xóa model không dùng

 
ollama rm ten-model
 

Ví dụ:

 
ollama rm llama3:latest
 

9. Kiểm tra model đang chạy

 
ollama ps
 

Lệnh này giúp xem model nào đang loaded, dùng CPU/GPU, kích thước và thời gian còn giữ trong bộ nhớ.

10. Tạo model tùy biến từ Modelfile

Ví dụ có file:

 
Modelfile
 

Tạo model:

 
ollama create bv-assistant -f Modelfile
 

Chạy model vừa tạo:

 
ollama run bv-assistant
 

11. Gọi API sinh văn bản

 
curl http://127.0.0.1:11434/api/generate \
-d '{
"model": "gemma3:4b",
"prompt": "Viết đoạn giới thiệu ngắn về AI local trong bệnh viện.",
"stream": false
}'
 

12. Gọi API chat

 
curl http://127.0.0.1:11434/api/chat \
-d '{
"model": "gemma3:4b",
"messages": [
{
"role": "system",
"content": "Bạn là trợ lý AI nội bộ bệnh viện."
},
{
"role": "user",
"content": "Hãy tạo dàn ý kế hoạch cải tiến chất lượng bệnh viện."
}
],
"stream": false
}'
 

13. Gọi API embedding

 
curl http://127.0.0.1:11434/api/embeddings \
-d '{
"model": "ten-embedding-model",
"prompt": "Quy trình báo cáo sự cố y khoa trong bệnh viện"
}'
 

14. Kiểm tra GPU khi Ollama chạy

 
watch -n 1 nvidia-smi
 

Khi model sinh câu trả lời, GPU utilization và VRAM usage thường tăng nếu model dùng GPU.