Bài 11. Một số lỗi thường gặp khi cài đặt

1. Đặt vấn đề

Khi cài đặt Ollama trên máy chủ bệnh viện, có thể gặp nhiều lỗi khác nhau: lỗi mạng, lỗi driver GPU, lỗi không nhận GPU, lỗi thiếu dung lượng, lỗi service không chạy, lỗi quyền thư mục, lỗi model tải không xong, lỗi API không truy cập được từ máy khác, hoặc model chạy quá chậm. Nếu không biết cách phân loại, người triển khai dễ xử lý sai hướng.

Bài này tổng hợp các lỗi thường gặp ở giai đoạn cài đặt và kiểm tra ban đầu, kèm hướng phân tích nguyên nhân.

2. Không cài được Ollama do lỗi mạng

Biểu hiện:

Lệnh cài đặt không tải được.
curl báo timeout.
Không resolve được domain.
Không truy cập được Internet.

Kiểm tra:

ping -c 4 8.8.8.8

ping -c 4 google.com

Nếu ping IP được nhưng domain không được, có thể lỗi DNS. Nếu không ping IP được, kiểm tra gateway, firewall, proxy hoặc route.

Trong bệnh viện, máy chủ có thể nằm sau firewall hoặc proxy. Cần cấu hình mạng trước khi cài.

3. Cài xong nhưng không có lệnh ollama

Biểu hiện:

ollama: command not found

Nguyên nhân có thể:

Cài đặt thất bại.
PATH chưa cập nhật.
Script cài đặt lỗi.
Người dùng không có quyền phù hợp.

Kiểm tra lại quá trình cài, thử logout/login hoặc kiểm tra vị trí binary:

which ollama

Nếu không có, cần cài lại theo cách chính thức.

4. Service Ollama không chạy

Kiểm tra:

systemctl status ollama

journalctl -u ollama -n 100 --no-pager

Nguyên nhân có thể:

Lỗi cấu hình service.
Port bị chiếm.
Quyền thư mục model sai.
Biến môi trường sai.
Thiếu file.
Cấu hình override lỗi.

Nếu vừa chỉnh systemctl edit, cần kiểm tra file override. Sau khi sửa:

sudo systemctl daemon-reload
sudo systemctl restart ollama

5. Ollama không nhận GPU

Biểu hiện:

Model chạy rất chậm.
nvidia-smi không thấy tiến trình Ollama.
ollama ps không hiển thị GPU.
Log báo không dùng được GPU.

Kiểm tra:

nvidia-smi

Nếu nvidia-smi lỗi, vấn đề nằm ở driver NVIDIA. Cần xử lý driver trước.

Nếu nvidia-smi tốt nhưng Ollama không dùng GPU, kiểm tra:

Phiên bản Ollama.
Model đang chạy.
Log Ollama.
GPU có được tiến trình khác dùng hết VRAM không.
Cấu hình môi trường.

6. `nvidia-smi` không hoạt động

Biểu hiện:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver

Nguyên nhân có thể:

Driver chưa cài.
Driver sai phiên bản.
Kernel module chưa nạp.
Secure Boot chặn module.
Cập nhật kernel làm lỗi driver.
GPU chưa được hệ thống nhận đúng.

Kiểm tra:

lspci | grep -i nvidia

lsmod | grep nvidia

Nếu lspci không thấy GPU, kiểm tra phần cứng/BIOS. Nếu thấy GPU nhưng driver lỗi, xử lý driver.

7. Hết dung lượng khi tải model

Biểu hiện:

ollama pull thất bại.
Báo no space left on device.
Dịch vụ lỗi sau khi tải model.
Phân vùng root đầy.

Kiểm tra:

df -h

du -sh /duong_dan_model

Giải pháp:

Xóa model không dùng.
Chuyển thư mục model sang ổ dữ liệu lớn.
Cấu hình OLLAMA_MODELS.
Dọn file tạm.
Không tải nhiều model thử nghiệm vào phân vùng root.

8. Quyền thư mục model sai

Biểu hiện:

Service không tải được model.
Service chạy bằng user này nhưng thư mục thuộc user khác.
Log báo permission denied.

Kiểm tra user service:

systemctl cat ollama

Kiểm tra quyền thư mục:

ls -ld /mnt/data/ai/models

Cấp quyền đúng theo user chạy service. Ví dụ nếu user là ollama:

sudo chown -R ollama:ollama /mnt/data/ai/models

9. API không truy cập được từ máy khác trong LAN

Biểu hiện:

Trên máy chủ gọi 127.0.0.1 được.
Máy khác gọi IP máy chủ không được.

Kiểm tra:

ss -tulpn | grep 11434

Nếu Ollama chỉ listen 127.0.0.1, máy khác không truy cập được. Nếu muốn mở LAN, cấu hình OLLAMA_HOST. Sau đó kiểm tra firewall:

sudo ufw status verbose

Tuy nhiên, cần nhớ không nên mở trực tiếp nếu chưa có kiểm soát.

10. Model chạy quá chậm

Nguyên nhân có thể:

Model quá lớn.
Không dùng GPU.
VRAM không đủ.
Model bị offload sang CPU.
Prompt quá dài.
Context quá lớn.
Nhiều người dùng đồng thời.
GPU quá nóng.
CPU/RAM bị nghẽn.

Kiểm tra:

nvidia-smi

free -h

htop

ollama ps

Giải pháp:

Dùng model nhỏ hơn.
Dùng quantization nhẹ hơn.
Giảm context.
Tối ưu prompt.
Giới hạn người dùng đồng thời.
Kiểm tra GPU/driver.
Cải thiện làm mát.

11. Model trả lời tiếng Việt kém

Đây không phải lỗi cài đặt, nhưng thường được phát hiện khi thử. Nguyên nhân có thể do model không mạnh về tiếng Việt hoặc model quá nhỏ.

Cách xử lý:

Thử model khác.
So sánh nhiều model bằng bộ câu hỏi tiếng Việt.
Dùng prompt rõ hơn.
Dùng RAG với tài liệu tiếng Việt.
Chọn model có khả năng song ngữ tốt.

12. Service chạy nhưng sau reboot không tự khởi động

Kiểm tra:

systemctl is-enabled ollama

Nếu chưa enabled:

sudo systemctl enable ollama

Sau đó reboot kiểm tra lại.

13. Lỗi do cập nhật hệ thống

Sau cập nhật kernel hoặc driver, GPU có thể lỗi. Vì vậy, trên hệ thống vận hành chính thức, cần cập nhật có kế hoạch:

Ghi lại trạng thái trước cập nhật.
Có backup cấu hình.
Cập nhật ngoài giờ sử dụng.
Kiểm tra nvidia-smi sau cập nhật.
Kiểm tra Ollama sau cập nhật.
Có phương án rollback nếu cần.

14. Kết luận

Các lỗi khi cài đặt Ollama thường thuộc một trong các nhóm: mạng, service, driver GPU, dung lượng, quyền thư mục, API, hiệu năng hoặc model. Cách xử lý tốt nhất là kiểm tra có hệ thống: phần cứng trước, driver trước, service sau, API sau, model sau, rồi mới đến hiệu năng.

Trong bệnh viện, mọi lỗi và cách xử lý nên được ghi vào tài liệu vận hành. Qua mỗi lần xử lý lỗi, hệ thống không chỉ được sửa mà còn trở nên dễ quản trị hơn cho các lần sau.

Đăng nhập để gửi ý kiến

1. Đặt vấn đề

2. Không cài được Ollama do lỗi mạng

3. Cài xong nhưng không có lệnh ollama

4. Service Ollama không chạy

5. Ollama không nhận GPU

6. `nvidia-smi` không hoạt động

7. Hết dung lượng khi tải model

8. Quyền thư mục model sai

9. API không truy cập được từ máy khác trong LAN

10. Model chạy quá chậm

11. Model trả lời tiếng Việt kém

12. Service chạy nhưng sau reboot không tự khởi động

13. Lỗi do cập nhật hệ thống

14. Kết luận

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

Câu hỏi, thảo luận

Bài 11. Một số lỗi thường gặp khi cài đặt

1. Đặt vấn đề

2. Không cài được Ollama do lỗi mạng

3. Cài xong nhưng không có lệnh ollama

4. Service Ollama không chạy

5. Ollama không nhận GPU

6. nvidia-smi không hoạt động

7. Hết dung lượng khi tải model

8. Quyền thư mục model sai

9. API không truy cập được từ máy khác trong LAN

10. Model chạy quá chậm

11. Model trả lời tiếng Việt kém

12. Service chạy nhưng sau reboot không tự khởi động

13. Lỗi do cập nhật hệ thống

14. Kết luận

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

6. `nvidia-smi` không hoạt động