1. Đặt vấn đề
CUDA là nền tảng tính toán song song của NVIDIA, được nhiều thư viện AI sử dụng để khai thác GPU. Khi triển khai AI local, nhiều người nghĩ rằng bắt buộc phải cài CUDA. Thực tế, điều này không phải lúc nào cũng đúng. Với Ollama, trong nhiều trường hợp chỉ cần driver NVIDIA hoạt động là đã có thể chạy model bằng GPU. CUDA toolkit đầy đủ chỉ cần khi bệnh viện muốn chạy các framework hoặc thư viện yêu cầu CUDA riêng, biên dịch phần mềm, huấn luyện model, fine-tuning, hoặc chạy một số pipeline xử lý AI nâng cao.
Vì vậy, bài này tập trung vào nguyên tắc: chỉ cài CUDA khi có nhu cầu rõ ràng. Cài quá nhiều thành phần không cần thiết có thể làm hệ thống phức tạp, tăng nguy cơ xung đột phiên bản và khó bảo trì.
2. Phân biệt driver NVIDIA và CUDA toolkit
Driver NVIDIA là thành phần giúp hệ điều hành giao tiếp với GPU. Nếu không có driver, GPU không hoạt động cho AI.
CUDA toolkit là bộ công cụ phát triển gồm compiler, thư viện và công cụ để xây dựng hoặc chạy các ứng dụng CUDA. Một số phần mềm cần CUDA toolkit, nhưng nhiều ứng dụng đã đóng gói runtime cần thiết hoặc chỉ cần driver.
Trong triển khai Ollama cơ bản, thứ cần kiểm tra trước tiên là:
nvidia-smiNếu nvidia-smi hoạt động và Ollama dùng được GPU, có thể chưa cần cài CUDA toolkit.
3. Khi nào cần cài CUDA?
Có thể cần cài CUDA khi:
- Chạy framework deep learning yêu cầu CUDA toolkit.
- Fine-tuning model local.
- Biên dịch llama.cpp hoặc phần mềm AI với CUDA.
- Chạy một số thư viện Python cần build CUDA extension.
- Dùng vLLM hoặc pipeline nâng cao yêu cầu CUDA cụ thể.
- Chạy xử lý ảnh, embedding hoặc training tùy chỉnh yêu cầu CUDA.
Nếu bệnh viện chỉ chạy Ollama để inference model, tóm tắt văn bản, chatbot và RAG cơ bản, có thể chưa cần CUDA toolkit.
4. Rủi ro khi cài CUDA không cần thiết
Cài CUDA không đúng có thể gây:
- Xung đột với driver.
- Sai biến môi trường.
- Thư viện CUDA nhiều phiên bản.
- Lỗi khi cập nhật.
- Khó debug.
- Tăng dung lượng hệ thống.
- Làm phức tạp tài liệu vận hành.
Trong bệnh viện, hệ thống càng đơn giản càng dễ ổn định. Vì vậy, không nên cài CUDA chỉ vì “nghe nói AI cần CUDA”.
5. Kiểm tra CUDA hiển thị trong nvidia-smi
Khi chạy:
nvidia-smibảng kết quả thường có dòng “CUDA Version”. Đây là phiên bản CUDA mà driver hỗ trợ, không nhất thiết nghĩa là CUDA toolkit đã được cài đầy đủ.
Để kiểm tra CUDA compiler:
nvcc --versionNếu nvcc không có, nghĩa là CUDA toolkit có thể chưa được cài. Điều này không phải lỗi nếu hệ thống chỉ cần Ollama.
6. Cài CUDA theo hướng chính thống
Nếu thật sự cần cài CUDA, nên dùng hướng dẫn chính thống phù hợp với phiên bản Ubuntu và driver. Không nên dùng lệnh không rõ nguồn. Cần kiểm tra:
- Ubuntu version.
- Driver version.
- CUDA version cần thiết.
- Framework yêu cầu CUDA nào.
- Có cần cuDNN không.
- Có cần Python virtual environment không.
- Có cần Docker NVIDIA runtime không.
Với máy chủ bệnh viện, nên cài trên môi trường thử nghiệm trước nếu có thể.
7. Sử dụng Docker để giảm xung đột
Nếu cần chạy nhiều framework AI khác nhau, Docker có thể giúp cô lập môi trường. Ví dụ, vLLM hoặc một pipeline fine-tuning có thể chạy trong container với CUDA runtime phù hợp. Tuy nhiên, Docker cũng cần cấu hình NVIDIA Container Toolkit.
Docker giúp giảm xung đột trên hệ thống chính, nhưng đòi hỏi đội ngũ CNTT hiểu Docker, volume, network, GPU passthrough, log và backup.
8. Nguyên tắc vận hành CUDA trong bệnh viện
Nếu đã cài CUDA, cần quản lý:
- Phiên bản driver.
- Phiên bản CUDA.
- Các biến môi trường.
- Framework dùng CUDA.
- Tài liệu cài đặt.
- Script kiểm tra GPU.
- Kế hoạch cập nhật.
- Kế hoạch rollback.
Không nên cập nhật driver/CUDA tùy tiện nếu hệ thống đang chạy ổn.
9. Kiểm tra Ollama có cần CUDA không
Sau khi cài Ollama, chạy model và theo dõi:
nvidia-smiNếu thấy tiến trình Ollama sử dụng GPU và VRAM tăng, nghĩa là Ollama đang dùng GPU. Có thể kiểm tra thêm:
ollama psNếu model chạy bằng GPU, không cần cài thêm CUDA chỉ để Ollama hoạt động.
10. Kết luận
CUDA là thành phần quan trọng trong nhiều ứng dụng AI, nhưng không phải lúc nào cũng cần cài CUDA toolkit khi triển khai Ollama. Với bệnh viện, nên cài driver NVIDIA trước, kiểm tra nvidia-smi, cài Ollama và xác nhận Ollama có dùng GPU. Chỉ cài CUDA khi có nhu cầu rõ như fine-tuning, biên dịch phần mềm hoặc chạy framework yêu cầu CUDA.
Nguyên tắc vận hành là tối giản, ổn định và có tài liệu hóa. Cài ít nhưng đúng thường tốt hơn cài nhiều mà khó kiểm soát.
Bài 6. Cài đặt Ollama
1. Đặt vấn đề
Sau khi máy chủ Ubuntu Server đã sẵn sàng và driver GPU hoạt động, có thể tiến hành cài đặt Ollama. Đây là bước đưa lớp vận hành model vào hệ thống. Cài Ollama tương đối đơn giản, nhưng trong môi trường bệnh viện vẫn cần thực hiện có kiểm soát: biết cài ở đâu, dịch vụ chạy như thế nào, model lưu ở đâu, port nào được mở và cách kiểm tra sau cài đặt.
Mục tiêu của bước này không chỉ là chạy được lệnh ollama, mà là bảo đảm Ollama hoạt động ổn định như một dịch vụ máy chủ.
2. Kiểm tra điều kiện trước khi cài
Trước khi cài, nên kiểm tra:
lsb_release -auname -rfree -hdf -hNếu có GPU NVIDIA:
nvidia-smiCần bảo đảm:
- Ubuntu Server hoạt động ổn.
- Có Internet nếu cài trực tuyến.
- Có đủ dung lượng ổ cứng.
- Driver NVIDIA hoạt động nếu dùng GPU.
- Tài khoản có quyền sudo/root.
- Mạng ổn định.
- Không có xung đột từ cài đặt Ollama cũ.
3. Cài Ollama bằng lệnh chính thức
Cách cài phổ biến là dùng script cài đặt chính thức của Ollama. Về nguyên tắc, lệnh thường có dạng:
curl -fsSL https://ollama.com/install.sh | shTrong môi trường bệnh viện, trước khi chạy script từ Internet, cần cân nhắc chính sách an toàn thông tin. Nếu bệnh viện có quy trình kiểm duyệt phần mềm, nên tải script, kiểm tra nội dung, lưu lại phiên bản và sau đó mới chạy.
Sau khi cài, kiểm tra:
ollama --versionVà kiểm tra service:
systemctl status ollama4. Kiểm tra dịch vụ Ollama
Sau khi cài, Ollama thường được cấu hình chạy như service. Kiểm tra:
sudo systemctl status ollamaNếu service đang chạy, có thể tiếp tục tải model. Nếu chưa chạy:
sudo systemctl start ollamaĐể tự khởi động cùng hệ thống:
sudo systemctl enable ollamaKiểm tra log:
journalctl -u ollama -n 100 --no-pagerLog rất quan trọng khi xử lý lỗi.
5. Tải model thử nghiệm
Sau khi cài, cần tải một model nhỏ hoặc phù hợp để thử. Ví dụ:
ollama pull gemma3:4bHoặc model khác tùy nhu cầu. Khi tải model, cần theo dõi dung lượng ổ cứng:
df -hSau khi tải, chạy thử:
ollama run gemma3:4bCó thể hỏi câu đơn giản bằng tiếng Việt để kiểm tra model phản hồi.
6. Kiểm tra GPU khi chạy model
Khi model đang chạy, mở cửa sổ SSH khác và chạy:
nvidia-smiNếu thấy tiến trình Ollama sử dụng GPU và VRAM tăng, model đang dùng GPU. Có thể dùng:
ollama psđể xem model đang chạy và thông tin xử lý nếu Ollama hiển thị.
Nếu không thấy GPU được dùng, cần kiểm tra driver, phiên bản Ollama, model và log.
7. Kiểm tra API Ollama
Ollama có API local. Có thể kiểm tra bằng curl từ máy chủ:
curl http://127.0.0.1:11434/api/tagsNếu trả về danh sách model, API đang hoạt động trên localhost.
Có thể thử sinh văn bản qua API, nhưng trong triển khai bệnh viện, cần nhớ rằng API này không nên mở trực tiếp cho người dùng cuối nếu chưa có lớp bảo mật.
8. Cấu hình service sau cài đặt
Cần biết file service nằm ở đâu:
systemctl cat ollamaNếu cần chỉnh biến môi trường như thư mục lưu model hoặc host listen, có thể cấu hình override bằng systemd thay vì sửa trực tiếp file service gốc.
Ví dụ:
sudo systemctl edit ollamaSau đó thêm cấu hình phù hợp. Sau khi sửa:
sudo systemctl daemon-reloadsudo systemctl restart ollama
Cần kiểm tra lại log sau khi restart.
9. Kiểm soát quyền và port
Mặc định Ollama thường listen trên localhost. Đây là cấu hình an toàn hơn cho giai đoạn đầu. Nếu muốn cho máy khác trong LAN truy cập, cần cấu hình host, nhưng phải cân nhắc bảo mật. Không nên mở rộng truy cập trước khi có API trung gian hoặc firewall.
Cần kiểm tra port:
ss -tulpn | grep 11434Nếu thấy Ollama listen trên 127.0.0.1, chỉ máy chủ gọi được. Nếu listen trên 0.0.0.0, các máy khác có thể truy cập tùy firewall. Cần cẩn trọng với cấu hình này.
10. Ghi lại quá trình cài đặt
Sau khi cài thành công, nên ghi lại:
- Ngày cài.
- Phiên bản Ollama.
- Phiên bản Ubuntu.
- GPU/driver.
- Model đã tải.
- Thư mục lưu model.
- Cấu hình service.
- Port API.
- Người thực hiện.
- Kết quả kiểm tra.
Đây là tài liệu vận hành quan trọng.
11. Kết luận
Cài đặt Ollama trên Ubuntu Server tương đối đơn giản, nhưng trong bệnh viện cần làm theo quy trình có kiểm soát. Sau khi cài, cần kiểm tra service, tải model thử nghiệm, kiểm tra GPU, kiểm tra API, kiểm soát port và ghi lại cấu hình. Ollama chỉ nên được mở rộng truy cập khi bệnh viện đã có lớp bảo mật và quy chế sử dụng phù hợp.
- Đăng nhập để gửi ý kiến