1. Đặt vấn đề

CUDA là nền tảng tính toán song song của NVIDIA, được nhiều thư viện AI sử dụng để khai thác GPU. Khi triển khai AI local, nhiều người nghĩ rằng bắt buộc phải cài CUDA. Thực tế, điều này không phải lúc nào cũng đúng. Với Ollama, trong nhiều trường hợp chỉ cần driver NVIDIA hoạt động là đã có thể chạy model bằng GPU. CUDA toolkit đầy đủ chỉ cần khi bệnh viện muốn chạy các framework hoặc thư viện yêu cầu CUDA riêng, biên dịch phần mềm, huấn luyện model, fine-tuning, hoặc chạy một số pipeline xử lý AI nâng cao.

Vì vậy, bài này tập trung vào nguyên tắc: chỉ cài CUDA khi có nhu cầu rõ ràng. Cài quá nhiều thành phần không cần thiết có thể làm hệ thống phức tạp, tăng nguy cơ xung đột phiên bản và khó bảo trì.

2. Phân biệt driver NVIDIA và CUDA toolkit

Driver NVIDIA là thành phần giúp hệ điều hành giao tiếp với GPU. Nếu không có driver, GPU không hoạt động cho AI.

CUDA toolkit là bộ công cụ phát triển gồm compiler, thư viện và công cụ để xây dựng hoặc chạy các ứng dụng CUDA. Một số phần mềm cần CUDA toolkit, nhưng nhiều ứng dụng đã đóng gói runtime cần thiết hoặc chỉ cần driver.

Trong triển khai Ollama cơ bản, thứ cần kiểm tra trước tiên là:

nvidia-smi

Nếu nvidia-smi hoạt động và Ollama dùng được GPU, có thể chưa cần cài CUDA toolkit.

3. Khi nào cần cài CUDA?

Có thể cần cài CUDA khi:

Chạy framework deep learning yêu cầu CUDA toolkit.
Fine-tuning model local.
Biên dịch llama.cpp hoặc phần mềm AI với CUDA.
Chạy một số thư viện Python cần build CUDA extension.
Dùng vLLM hoặc pipeline nâng cao yêu cầu CUDA cụ thể.
Chạy xử lý ảnh, embedding hoặc training tùy chỉnh yêu cầu CUDA.

Nếu bệnh viện chỉ chạy Ollama để inference model, tóm tắt văn bản, chatbot và RAG cơ bản, có thể chưa cần CUDA toolkit.

4. Rủi ro khi cài CUDA không cần thiết

Cài CUDA không đúng có thể gây:

Xung đột với driver.
Sai biến môi trường.
Thư viện CUDA nhiều phiên bản.
Lỗi khi cập nhật.
Khó debug.
Tăng dung lượng hệ thống.
Làm phức tạp tài liệu vận hành.

Trong bệnh viện, hệ thống càng đơn giản càng dễ ổn định. Vì vậy, không nên cài CUDA chỉ vì “nghe nói AI cần CUDA”.

5. Kiểm tra CUDA hiển thị trong nvidia-smi

Khi chạy:

nvidia-smi

bảng kết quả thường có dòng “CUDA Version”. Đây là phiên bản CUDA mà driver hỗ trợ, không nhất thiết nghĩa là CUDA toolkit đã được cài đầy đủ.

Để kiểm tra CUDA compiler:

nvcc --version

Nếu nvcc không có, nghĩa là CUDA toolkit có thể chưa được cài. Điều này không phải lỗi nếu hệ thống chỉ cần Ollama.

6. Cài CUDA theo hướng chính thống

Nếu thật sự cần cài CUDA, nên dùng hướng dẫn chính thống phù hợp với phiên bản Ubuntu và driver. Không nên dùng lệnh không rõ nguồn. Cần kiểm tra:

Ubuntu version.
Driver version.
CUDA version cần thiết.
Framework yêu cầu CUDA nào.
Có cần cuDNN không.
Có cần Python virtual environment không.
Có cần Docker NVIDIA runtime không.

Với máy chủ bệnh viện, nên cài trên môi trường thử nghiệm trước nếu có thể.

7. Sử dụng Docker để giảm xung đột

Nếu cần chạy nhiều framework AI khác nhau, Docker có thể giúp cô lập môi trường. Ví dụ, vLLM hoặc một pipeline fine-tuning có thể chạy trong container với CUDA runtime phù hợp. Tuy nhiên, Docker cũng cần cấu hình NVIDIA Container Toolkit.

Docker giúp giảm xung đột trên hệ thống chính, nhưng đòi hỏi đội ngũ CNTT hiểu Docker, volume, network, GPU passthrough, log và backup.

8. Nguyên tắc vận hành CUDA trong bệnh viện

Nếu đã cài CUDA, cần quản lý:

Phiên bản driver.
Phiên bản CUDA.
Các biến môi trường.
Framework dùng CUDA.
Tài liệu cài đặt.
Script kiểm tra GPU.
Kế hoạch cập nhật.
Kế hoạch rollback.

Không nên cập nhật driver/CUDA tùy tiện nếu hệ thống đang chạy ổn.

9. Kiểm tra Ollama có cần CUDA không

Sau khi cài Ollama, chạy model và theo dõi:

nvidia-smi

Nếu thấy tiến trình Ollama sử dụng GPU và VRAM tăng, nghĩa là Ollama đang dùng GPU. Có thể kiểm tra thêm:

ollama ps

Nếu model chạy bằng GPU, không cần cài thêm CUDA chỉ để Ollama hoạt động.

10. Kết luận

CUDA là thành phần quan trọng trong nhiều ứng dụng AI, nhưng không phải lúc nào cũng cần cài CUDA toolkit khi triển khai Ollama. Với bệnh viện, nên cài driver NVIDIA trước, kiểm tra nvidia-smi, cài Ollama và xác nhận Ollama có dùng GPU. Chỉ cài CUDA khi có nhu cầu rõ như fine-tuning, biên dịch phần mềm hoặc chạy framework yêu cầu CUDA.

Nguyên tắc vận hành là tối giản, ổn định và có tài liệu hóa. Cài ít nhưng đúng thường tốt hơn cài nhiều mà khó kiểm soát.

Bài 6. Cài đặt Ollama

1. Đặt vấn đề

Sau khi máy chủ Ubuntu Server đã sẵn sàng và driver GPU hoạt động, có thể tiến hành cài đặt Ollama. Đây là bước đưa lớp vận hành model vào hệ thống. Cài Ollama tương đối đơn giản, nhưng trong môi trường bệnh viện vẫn cần thực hiện có kiểm soát: biết cài ở đâu, dịch vụ chạy như thế nào, model lưu ở đâu, port nào được mở và cách kiểm tra sau cài đặt.

Mục tiêu của bước này không chỉ là chạy được lệnh ollama, mà là bảo đảm Ollama hoạt động ổn định như một dịch vụ máy chủ.

2. Kiểm tra điều kiện trước khi cài

Trước khi cài, nên kiểm tra:

lsb_release -a

uname -r

free -h

df -h

Nếu có GPU NVIDIA:

nvidia-smi

Cần bảo đảm:

Ubuntu Server hoạt động ổn.
Có Internet nếu cài trực tuyến.
Có đủ dung lượng ổ cứng.
Driver NVIDIA hoạt động nếu dùng GPU.
Tài khoản có quyền sudo/root.
Mạng ổn định.
Không có xung đột từ cài đặt Ollama cũ.

3. Cài Ollama bằng lệnh chính thức

Cách cài phổ biến là dùng script cài đặt chính thức của Ollama. Về nguyên tắc, lệnh thường có dạng:

curl -fsSL https://ollama.com/install.sh | sh

Trong môi trường bệnh viện, trước khi chạy script từ Internet, cần cân nhắc chính sách an toàn thông tin. Nếu bệnh viện có quy trình kiểm duyệt phần mềm, nên tải script, kiểm tra nội dung, lưu lại phiên bản và sau đó mới chạy.

Sau khi cài, kiểm tra:

ollama --version

Và kiểm tra service:

systemctl status ollama

4. Kiểm tra dịch vụ Ollama

Sau khi cài, Ollama thường được cấu hình chạy như service. Kiểm tra:

sudo systemctl status ollama

Nếu service đang chạy, có thể tiếp tục tải model. Nếu chưa chạy:

sudo systemctl start ollama

Để tự khởi động cùng hệ thống:

sudo systemctl enable ollama

Kiểm tra log:

journalctl -u ollama -n 100 --no-pager

Log rất quan trọng khi xử lý lỗi.

5. Tải model thử nghiệm

Sau khi cài, cần tải một model nhỏ hoặc phù hợp để thử. Ví dụ:

ollama pull gemma3:4b

Hoặc model khác tùy nhu cầu. Khi tải model, cần theo dõi dung lượng ổ cứng:

df -h

Sau khi tải, chạy thử:

ollama run gemma3:4b

Có thể hỏi câu đơn giản bằng tiếng Việt để kiểm tra model phản hồi.

6. Kiểm tra GPU khi chạy model

Khi model đang chạy, mở cửa sổ SSH khác và chạy:

nvidia-smi

Nếu thấy tiến trình Ollama sử dụng GPU và VRAM tăng, model đang dùng GPU. Có thể dùng:

ollama ps

để xem model đang chạy và thông tin xử lý nếu Ollama hiển thị.

Nếu không thấy GPU được dùng, cần kiểm tra driver, phiên bản Ollama, model và log.

7. Kiểm tra API Ollama

Ollama có API local. Có thể kiểm tra bằng curl từ máy chủ:

curl http://127.0.0.1:11434/api/tags

Nếu trả về danh sách model, API đang hoạt động trên localhost.

Có thể thử sinh văn bản qua API, nhưng trong triển khai bệnh viện, cần nhớ rằng API này không nên mở trực tiếp cho người dùng cuối nếu chưa có lớp bảo mật.

8. Cấu hình service sau cài đặt

Cần biết file service nằm ở đâu:

systemctl cat ollama

Nếu cần chỉnh biến môi trường như thư mục lưu model hoặc host listen, có thể cấu hình override bằng systemd thay vì sửa trực tiếp file service gốc.

Ví dụ:

sudo systemctl edit ollama

Sau đó thêm cấu hình phù hợp. Sau khi sửa:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Cần kiểm tra lại log sau khi restart.

9. Kiểm soát quyền và port

Mặc định Ollama thường listen trên localhost. Đây là cấu hình an toàn hơn cho giai đoạn đầu. Nếu muốn cho máy khác trong LAN truy cập, cần cấu hình host, nhưng phải cân nhắc bảo mật. Không nên mở rộng truy cập trước khi có API trung gian hoặc firewall.

Cần kiểm tra port:

ss -tulpn | grep 11434

Nếu thấy Ollama listen trên 127.0.0.1, chỉ máy chủ gọi được. Nếu listen trên 0.0.0.0, các máy khác có thể truy cập tùy firewall. Cần cẩn trọng với cấu hình này.

10. Ghi lại quá trình cài đặt

Sau khi cài thành công, nên ghi lại:

Ngày cài.
Phiên bản Ollama.
Phiên bản Ubuntu.
GPU/driver.
Model đã tải.
Thư mục lưu model.
Cấu hình service.
Port API.
Người thực hiện.
Kết quả kiểm tra.

Đây là tài liệu vận hành quan trọng.

11. Kết luận

Cài đặt Ollama trên Ubuntu Server tương đối đơn giản, nhưng trong bệnh viện cần làm theo quy trình có kiểm soát. Sau khi cài, cần kiểm tra service, tải model thử nghiệm, kiểm tra GPU, kiểm tra API, kiểm soát port và ghi lại cấu hình. Ollama chỉ nên được mở rộng truy cập khi bệnh viện đã có lớp bảo mật và quy chế sử dụng phù hợp.

Đăng nhập để gửi ý kiến

Bài 5. Cài đặt CUDA khi cần thiết

1. Đặt vấn đề

2. Phân biệt driver NVIDIA và CUDA toolkit

3. Khi nào cần cài CUDA?

4. Rủi ro khi cài CUDA không cần thiết

5. Kiểm tra CUDA hiển thị trong nvidia-smi

6. Cài CUDA theo hướng chính thống

7. Sử dụng Docker để giảm xung đột

8. Nguyên tắc vận hành CUDA trong bệnh viện

9. Kiểm tra Ollama có cần CUDA không

10. Kết luận

Bài 6. Cài đặt Ollama

1. Đặt vấn đề

2. Kiểm tra điều kiện trước khi cài

3. Cài Ollama bằng lệnh chính thức

4. Kiểm tra dịch vụ Ollama

5. Tải model thử nghiệm

6. Kiểm tra GPU khi chạy model

7. Kiểm tra API Ollama

8. Cấu hình service sau cài đặt

9. Kiểm soát quyền và port

10. Ghi lại quá trình cài đặt

11. Kết luận

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

Câu hỏi, thảo luận