Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "HI.AI Members" các nội dung bạn quan tâm.

Bài 4. Cài đặt driver NVIDIA

1. Đặt vấn đề

Đối với hệ thống AI local dùng GPU NVIDIA, driver NVIDIA là thành phần bắt buộc để hệ điều hành nhận và sử dụng GPU. Nếu driver không hoạt động, Ollama có thể không dùng được GPU và model sẽ chạy bằng CPU, dẫn đến tốc độ rất chậm. Trong một số trường hợp, model lớn có thể không chạy được hoặc phản hồi quá lâu.

Cài driver NVIDIA trên Ubuntu Server cần làm cẩn thận. Cài sai phiên bản, xung đột kernel, cài nhầm nhiều nguồn driver hoặc cập nhật thiếu kiểm soát có thể gây lỗi. Trong môi trường bệnh viện, cần ưu tiên sự ổn định hơn là chạy theo phiên bản mới nhất.

2. Kiểm tra GPU trước khi cài driver

Trước khi cài driver, cần kiểm tra hệ thống có nhận GPU ở mức phần cứng không:

 
lspci | grep -i nvidia
 

Nếu không thấy GPU, cần kiểm tra:

  • GPU đã gắn đúng chưa.
  • Nguồn phụ GPU đã cắm chưa.
  • BIOS/UEFI có nhận GPU không.
  • Mainboard có hỗ trợ không.
  • Khe PCIe có hoạt động không.
  • Máy chủ có yêu cầu cấu hình đặc biệt không.

Không nên tiếp tục cài driver nếu hệ thống không thấy GPU ở mức lspci.

3. Kiểm tra driver đang có

Có thể kiểm tra:

 
nvidia-smi
 

Nếu lệnh hiển thị GPU, driver đã hoạt động. Nếu báo lỗi hoặc không có lệnh, cần cài hoặc sửa driver.

Có thể kiểm tra package NVIDIA đã cài:

 
dpkg -l | grep nvidia
 

Nếu hệ thống từng cài nhiều driver khác nhau và bị lỗi, có thể cần làm sạch trước khi cài lại. Tuy nhiên, thao tác gỡ driver nên cẩn thận, đặc biệt trên máy đang vận hành.

4. Cài driver bằng ubuntu-drivers

Ubuntu hỗ trợ công cụ gợi ý driver:

 
ubuntu-drivers devices
 

Nếu chưa có công cụ:

 
sudo apt install -y ubuntu-drivers-common
 

Sau đó có thể cài driver được khuyến nghị:

 
sudo ubuntu-drivers autoinstall
 

Sau khi cài, reboot:

 
sudo reboot
 

Rồi kiểm tra:

 
nvidia-smi
 

Nếu nvidia-smi hiển thị GPU, driver đã hoạt động.

5. Cài driver theo phiên bản cụ thể

Trong một số trường hợp, người quản trị muốn cài phiên bản cụ thể:

 
sudo apt install -y nvidia-driver-XXX
 

Trong đó XXX là phiên bản driver phù hợp. Không nên chọn phiên bản tùy tiện. Cần dựa trên GPU, Ubuntu version và khuyến nghị từ hệ thống.

Với máy chủ bệnh viện, nếu driver đang hoạt động ổn định, không nên cập nhật liên tục nếu không có lý do rõ.

6. Secure Boot

Một lỗi phổ biến là Secure Boot làm kernel module NVIDIA không được nạp. Nếu cài driver xong nhưng nvidia-smi lỗi, cần kiểm tra Secure Boot. Có thể cần tắt Secure Boot trong BIOS/UEFI hoặc ký module, tùy chính sách hệ thống.

Trong môi trường máy chủ nội bộ, nhiều đơn vị chọn tắt Secure Boot để giảm phức tạp khi cài driver, nhưng cần cân nhắc chính sách bảo mật tổng thể.

7. Kiểm tra sau khi cài driver

Sau khi cài driver và reboot, kiểm tra:

 
nvidia-smi
 

Thông tin cần thấy:

  • Tên GPU.
  • Driver Version.
  • CUDA Version.
  • Memory Usage.
  • Temperature.
  • Power Usage.
  • Processes.

Ngoài ra, kiểm tra module:

 
lsmod | grep nvidia
 

Nếu Ollama đã cài sau này, có thể kiểm tra model có dùng GPU bằng:

 
ollama ps
 

hoặc theo dõi nvidia-smi trong lúc chạy model.

8. Không nhất thiết phải cài CUDA toolkit ngay

Nhiều người nghĩ cài AI local là phải cài CUDA toolkit. Thực tế, với Ollama, trong nhiều trường hợp chỉ cần driver NVIDIA hoạt động. CUDA toolkit đầy đủ chỉ cần khi biên dịch hoặc chạy một số framework yêu cầu.

Cài CUDA toolkit không đúng cách có thể làm hệ thống phức tạp hơn. Vì vậy, nguyên tắc thực tế là:

  • Cài driver trước.
  • Kiểm tra nvidia-smi.
  • Cài Ollama.
  • Kiểm tra Ollama có dùng GPU không.
  • Chỉ cài CUDA toolkit nếu thật sự cần cho tác vụ khác.

9. Lỗi thường gặp sau cài driver

Một số lỗi phổ biến:

9.1. nvidia-smi: command not found

Driver hoặc công cụ NVIDIA chưa cài đúng.

9.2. NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver

Driver cài nhưng module chưa nạp, lỗi kernel, Secure Boot hoặc cài sai phiên bản.

9.3. GPU hiện trong lspci nhưng không hiện trong nvidia-smi

Thường liên quan driver, kernel module hoặc Secure Boot.

9.4. Sau cập nhật kernel thì GPU không hoạt động

Driver chưa build lại cho kernel mới hoặc DKMS lỗi. Cần kiểm tra log và package.

10. Tài liệu hóa cấu hình driver

Sau khi cài thành công, nên ghi lại:

  • Ngày cài.
  • Phiên bản Ubuntu.
  • Kernel.
  • GPU.
  • Driver version.
  • Lệnh đã dùng.
  • Người thực hiện.
  • Kết quả nvidia-smi.

Tài liệu này giúp xử lý khi cần phục hồi hoặc nâng cấp.

11. Kết luận

Driver NVIDIA là điều kiện nền tảng để Ollama sử dụng GPU. Cần kiểm tra GPU bằng lspci, cài driver phù hợp, reboot và xác nhận bằng nvidia-smi. Không nên vội cài CUDA toolkit nếu chưa cần. Trong bệnh viện, ưu tiên driver ổn định, có tài liệu hóa và tránh cập nhật tùy tiện trên hệ thống đang vận hành tốt.