Bài 1. Không nhận GPU NVIDIA

1. Đặt vấn đề

GPU NVIDIA là thành phần quan trọng để chạy AI local nhanh, đặc biệt với Ollama và các model ngôn ngữ lớn. Nếu hệ thống không nhận GPU, model có thể chạy bằng CPU, tốc độ chậm hơn nhiều. Người dùng sẽ cảm nhận chatbot trả lời chậm, model load lâu, máy chủ CPU tăng cao trong khi GPU không hoạt động.

Lỗi không nhận GPU thường gặp sau khi cài mới Ubuntu Server, cập nhật kernel, cài sai driver, Secure Boot chưa xử lý, hoặc GPU chưa được nhận đúng ở cấp phần cứng.

2. Dấu hiệu nhận biết

Các dấu hiệu thường gặp:

Lệnh nvidia-smi báo lỗi.
Không thấy GPU trong nvidia-smi.
Ollama chạy model bằng CPU.
ollama ps không hiển thị GPU hoặc processor là CPU.
GPU không xuất hiện trong tiến trình.
Model chạy rất chậm dù máy có GPU.
Sau khi cập nhật hệ thống, GPU đột ngột không hoạt động.

3. Lệnh kiểm tra cơ bản

Kiểm tra GPU:

nvidia-smi

Kiểm tra thiết bị PCI:

lspci | grep -i nvidia

Kiểm tra driver kernel:

lsmod | grep nvidia

Kiểm tra phiên bản kernel:

uname -r

Kiểm tra service Ollama:

systemctl status ollama

4. Các nguyên nhân thường gặp

4.1. Chưa cài NVIDIA driver

Ubuntu nhận phần cứng nhưng chưa có driver phù hợp.

4.2. Driver không tương thích kernel

Sau cập nhật kernel, module NVIDIA chưa build lại hoặc lỗi DKMS.

4.3. Secure Boot chặn driver

Một số máy bật Secure Boot khiến module NVIDIA không được nạp.

4.4. GPU chưa được nhận ở phần cứng

Có thể do khe PCIe, nguồn phụ GPU, BIOS hoặc lỗi phần cứng.

4.5. Cài nhiều driver xung đột

Driver từ nhiều nguồn khác nhau có thể gây xung đột.

4.6. Docker/container không được cấp quyền GPU

Nếu Ollama chạy trong container, cần cấu hình NVIDIA Container Toolkit.

5. Cách xử lý theo hướng an toàn

Trước khi sửa, cần ghi lại tình trạng:

nvidia-smi
lspci | grep -i nvidia
uname -r

Sau đó xử lý theo nguyên nhân.

Nếu chưa có driver, cài driver phù hợp từ nguồn Ubuntu hoặc NVIDIA. Nếu Secure Boot gây lỗi, cần tắt Secure Boot hoặc ký module theo quy trình phù hợp. Nếu vừa cập nhật kernel, kiểm tra DKMS và driver. Nếu GPU không xuất hiện trong lspci, cần kiểm tra phần cứng, nguồn phụ, khe cắm, BIOS.

6. Kiểm tra sau khi sửa

Sau khi cài hoặc sửa driver, reboot và kiểm tra:

nvidia-smi
lsmod | grep nvidia
ollama ps

Sau đó chạy thử model và quan sát:

watch -n 1 nvidia-smi

Khi gửi prompt, GPU utilization và VRAM usage phải thay đổi nếu model dùng GPU.

7. Lưu ý với máy chủ bệnh viện

Không nên cập nhật driver hoặc kernel tùy tiện trong giờ làm việc nếu hệ thống đang vận hành chính thức. Cần có:

Backup cấu hình.
Thời gian bảo trì.
Người phụ trách.
Kế hoạch rollback.
Ghi nhật ký thay đổi.

Một lỗi driver GPU có thể làm toàn bộ chatbot AI chậm hoặc ngừng phục vụ.

8. Phòng ngừa

Cần:

Ghi lại phiên bản driver đang ổn định.
Không tự động cập nhật kernel nếu chưa kiểm soát.
Test sau mỗi lần cập nhật.
Theo dõi nvidia-smi.
Tài liệu hóa quy trình cài driver.
Có bản ghi cấu hình BIOS/Secure Boot.
Kiểm tra nhiệt độ và nguồn GPU định kỳ.

9. Kết luận

Lỗi không nhận GPU NVIDIA là lỗi nền tảng trong triển khai AI local. Cần kiểm tra theo thứ tự: phần cứng có nhận không, driver có nạp không, nvidia-smi có chạy không, Ollama có dùng GPU không. Khi xử lý, cần thận trọng vì thay đổi driver/kernel có thể ảnh hưởng hệ thống. Với bệnh viện, mục tiêu không chỉ là sửa GPU chạy lại, mà là duy trì GPU ổn định lâu dài.

Đăng nhập để gửi ý kiến