1. Đặt vấn đề
Đối với hệ thống AI local dùng GPU NVIDIA, driver NVIDIA là thành phần bắt buộc để hệ điều hành nhận và sử dụng GPU. Nếu driver không hoạt động, Ollama có thể không dùng được GPU và model sẽ chạy bằng CPU, dẫn đến tốc độ rất chậm. Trong một số trường hợp, model lớn có thể không chạy được hoặc phản hồi quá lâu.
Cài driver NVIDIA trên Ubuntu Server cần làm cẩn thận. Cài sai phiên bản, xung đột kernel, cài nhầm nhiều nguồn driver hoặc cập nhật thiếu kiểm soát có thể gây lỗi. Trong môi trường bệnh viện, cần ưu tiên sự ổn định hơn là chạy theo phiên bản mới nhất.
2. Kiểm tra GPU trước khi cài driver
Trước khi cài driver, cần kiểm tra hệ thống có nhận GPU ở mức phần cứng không:
lspci | grep -i nvidiaNếu không thấy GPU, cần kiểm tra:
- GPU đã gắn đúng chưa.
- Nguồn phụ GPU đã cắm chưa.
- BIOS/UEFI có nhận GPU không.
- Mainboard có hỗ trợ không.
- Khe PCIe có hoạt động không.
- Máy chủ có yêu cầu cấu hình đặc biệt không.
Không nên tiếp tục cài driver nếu hệ thống không thấy GPU ở mức lspci.
3. Kiểm tra driver đang có
Có thể kiểm tra:
nvidia-smiNếu lệnh hiển thị GPU, driver đã hoạt động. Nếu báo lỗi hoặc không có lệnh, cần cài hoặc sửa driver.
Có thể kiểm tra package NVIDIA đã cài:
dpkg -l | grep nvidiaNếu hệ thống từng cài nhiều driver khác nhau và bị lỗi, có thể cần làm sạch trước khi cài lại. Tuy nhiên, thao tác gỡ driver nên cẩn thận, đặc biệt trên máy đang vận hành.
4. Cài driver bằng ubuntu-drivers
Ubuntu hỗ trợ công cụ gợi ý driver:
ubuntu-drivers devicesNếu chưa có công cụ:
sudo apt install -y ubuntu-drivers-commonSau đó có thể cài driver được khuyến nghị:
sudo ubuntu-drivers autoinstallSau khi cài, reboot:
sudo rebootRồi kiểm tra:
nvidia-smiNếu nvidia-smi hiển thị GPU, driver đã hoạt động.
5. Cài driver theo phiên bản cụ thể
Trong một số trường hợp, người quản trị muốn cài phiên bản cụ thể:
sudo apt install -y nvidia-driver-XXXTrong đó XXX là phiên bản driver phù hợp. Không nên chọn phiên bản tùy tiện. Cần dựa trên GPU, Ubuntu version và khuyến nghị từ hệ thống.
Với máy chủ bệnh viện, nếu driver đang hoạt động ổn định, không nên cập nhật liên tục nếu không có lý do rõ.
6. Secure Boot
Một lỗi phổ biến là Secure Boot làm kernel module NVIDIA không được nạp. Nếu cài driver xong nhưng nvidia-smi lỗi, cần kiểm tra Secure Boot. Có thể cần tắt Secure Boot trong BIOS/UEFI hoặc ký module, tùy chính sách hệ thống.
Trong môi trường máy chủ nội bộ, nhiều đơn vị chọn tắt Secure Boot để giảm phức tạp khi cài driver, nhưng cần cân nhắc chính sách bảo mật tổng thể.
7. Kiểm tra sau khi cài driver
Sau khi cài driver và reboot, kiểm tra:
nvidia-smiThông tin cần thấy:
- Tên GPU.
- Driver Version.
- CUDA Version.
- Memory Usage.
- Temperature.
- Power Usage.
- Processes.
Ngoài ra, kiểm tra module:
lsmod | grep nvidiaNếu Ollama đã cài sau này, có thể kiểm tra model có dùng GPU bằng:
ollama pshoặc theo dõi nvidia-smi trong lúc chạy model.
8. Không nhất thiết phải cài CUDA toolkit ngay
Nhiều người nghĩ cài AI local là phải cài CUDA toolkit. Thực tế, với Ollama, trong nhiều trường hợp chỉ cần driver NVIDIA hoạt động. CUDA toolkit đầy đủ chỉ cần khi biên dịch hoặc chạy một số framework yêu cầu.
Cài CUDA toolkit không đúng cách có thể làm hệ thống phức tạp hơn. Vì vậy, nguyên tắc thực tế là:
- Cài driver trước.
- Kiểm tra
nvidia-smi. - Cài Ollama.
- Kiểm tra Ollama có dùng GPU không.
- Chỉ cài CUDA toolkit nếu thật sự cần cho tác vụ khác.
9. Lỗi thường gặp sau cài driver
Một số lỗi phổ biến:
9.1. nvidia-smi: command not found
Driver hoặc công cụ NVIDIA chưa cài đúng.
9.2. NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver
Driver cài nhưng module chưa nạp, lỗi kernel, Secure Boot hoặc cài sai phiên bản.
9.3. GPU hiện trong lspci nhưng không hiện trong nvidia-smi
Thường liên quan driver, kernel module hoặc Secure Boot.
9.4. Sau cập nhật kernel thì GPU không hoạt động
Driver chưa build lại cho kernel mới hoặc DKMS lỗi. Cần kiểm tra log và package.
10. Tài liệu hóa cấu hình driver
Sau khi cài thành công, nên ghi lại:
- Ngày cài.
- Phiên bản Ubuntu.
- Kernel.
- GPU.
- Driver version.
- Lệnh đã dùng.
- Người thực hiện.
- Kết quả
nvidia-smi.
Tài liệu này giúp xử lý khi cần phục hồi hoặc nâng cấp.
11. Kết luận
Driver NVIDIA là điều kiện nền tảng để Ollama sử dụng GPU. Cần kiểm tra GPU bằng lspci, cài driver phù hợp, reboot và xác nhận bằng nvidia-smi. Không nên vội cài CUDA toolkit nếu chưa cần. Trong bệnh viện, ưu tiên driver ổn định, có tài liệu hóa và tránh cập nhật tùy tiện trên hệ thống đang vận hành tốt.
- Đăng nhập để gửi ý kiến