1. Đặt vấn đề
Trước khi cài Ollama và chạy model, cần kiểm tra máy chủ đang có phần cứng gì và hệ điều hành nhận phần cứng như thế nào. Đây là bước rất thực tế nhưng nhiều người bỏ qua. Nếu không kiểm tra trước, có thể cài xong mới phát hiện hệ thống không nhận GPU, RAM không đủ, ổ cứng chưa mount, phân vùng root quá nhỏ hoặc model chạy bằng CPU thay vì GPU.
Trong bệnh viện, kiểm tra phần cứng còn giúp lập tài liệu vận hành. Khi hệ thống gặp lỗi hoặc cần nâng cấp, phòng CNTT cần biết cấu hình ban đầu, dung lượng ổ cứng, tình trạng mount, driver GPU và mức sử dụng tài nguyên.
2. Kiểm tra CPU
CPU quyết định khả năng xử lý nền của máy chủ. Có thể kiểm tra bằng các lệnh Linux như:
lscpuCác thông tin cần quan tâm:
- Tên CPU.
- Số socket.
- Số core.
- Số thread.
- Kiến trúc.
- Tốc độ xung.
- Hỗ trợ ảo hóa nếu cần.
- Cache.
Trong hệ thống AI local, CPU nhiều nhân hữu ích khi xử lý nhiều tiến trình: API, web, RAG, embedding, xử lý tài liệu, backup và monitoring. Nếu chỉ tập trung GPU mà CPU quá yếu, hệ thống tổng thể vẫn có thể nghẽn.
3. Kiểm tra RAM
RAM có thể kiểm tra bằng:
free -hHoặc:
cat /proc/meminfoCần quan tâm:
- Tổng RAM.
- RAM đang dùng.
- RAM còn trống.
- Swap.
- Mức sử dụng sau khi chạy model.
Khi chạy AI local, RAM không chỉ phục vụ model. RAM còn phục vụ hệ điều hành, file cache, FAISS, web server, API, database và xử lý tài liệu. Nếu máy chủ có RAM lớn, hệ thống sẽ thuận lợi hơn khi xây RAG hoặc xử lý nhiều file.
Cần theo dõi RAM trong cả trạng thái chưa chạy model và khi model đang chạy. Một số lỗi chỉ xuất hiện khi tải model lớn hoặc xử lý tài liệu dài.
4. Kiểm tra GPU NVIDIA
Nếu dùng GPU NVIDIA, lệnh quan trọng nhất là:
nvidia-smiNếu lệnh chạy được và hiển thị GPU, driver, VRAM, nhiệt độ, mức sử dụng, nghĩa là hệ thống đã nhận GPU ở mức cơ bản.
Các thông tin cần xem:
- Tên GPU.
- Driver version.
- CUDA version hiển thị.
- Tổng VRAM.
- VRAM đang dùng.
- Nhiệt độ.
- Công suất.
- Tiến trình đang dùng GPU.
Nếu nvidia-smi không chạy, có thể driver chưa cài, cài sai, kernel module lỗi hoặc GPU chưa được nhận. Không nên cài Ollama và kỳ vọng GPU hoạt động nếu bước này chưa ổn.
5. Kiểm tra VRAM
VRAM hiển thị trong nvidia-smi. Đây là thông tin rất quan trọng để chọn model.
Ví dụ, GPU 16GB VRAM có nghĩa là tổng bộ nhớ GPU khoảng 16GB. Tuy nhiên, không phải toàn bộ 16GB đều dùng được cho model, vì hệ thống và tiến trình khác có thể dùng một phần. Khi chạy model, cần theo dõi VRAM tăng lên bao nhiêu.
VRAM quyết định:
- Model nào có thể chạy hoàn toàn trên GPU.
- Context dài đến đâu.
- Có thể chạy nhiều model đồng thời không.
- Có thể phục vụ bao nhiêu request đồng thời.
Nếu model không vừa VRAM, hệ thống có thể offload sang RAM/CPU, làm chậm rõ rệt.
6. Kiểm tra ổ cứng và phân vùng
Các lệnh thường dùng:
lsblk -fdf -hdf -ilsblk -f giúp xem ổ cứng, phân vùng, filesystem, UUID và mount point.
df -h giúp xem dung lượng còn trống.
df -i giúp xem inode, hữu ích khi có rất nhiều file nhỏ.
Cần quan tâm:
- Phân vùng root còn bao nhiêu GB.
- Ổ SSD/NVMe đã mount chưa.
- Ổ HDD dữ liệu đã mount chưa.
- Thư mục dự kiến lưu model nằm trên phân vùng nào.
- Backup nằm ở đâu.
- Có nguy cơ đầy root không.
- Filesystem có phù hợp không.
Model AI có thể chiếm nhiều dung lượng. Không nên để model trong phân vùng root nhỏ nếu hệ thống có ổ dữ liệu lớn.
7. Kiểm tra tốc độ ổ cứng ở mức cơ bản
Không nhất thiết phải benchmark phức tạp ngay từ đầu, nhưng cần biết ổ nào là SSD/NVMe, ổ nào là HDD. Có thể xem bằng:
lsblk -d -o name,rota,size,modelNếu rota là 0 thường là SSD/NVMe; nếu 1 thường là HDD.
Nên dùng SSD/NVMe cho:
- Hệ điều hành.
- Model đang chạy.
- FAISS index.
- Database.
- Ứng dụng.
Nên dùng HDD cho:
- Tài liệu gốc dung lượng lớn.
- Backup.
- Lưu trữ lâu dài.
8. Kiểm tra hệ điều hành và kernel
Có thể dùng:
lsb_release -auname -rCần ghi nhận phiên bản Ubuntu Server và kernel. Điều này quan trọng khi cài driver NVIDIA. Một số lỗi driver liên quan đến kernel version.
9. Kiểm tra mạng
Các lệnh cơ bản:
ip aip routeping -c 4 8.8.8.8ping -c 4 google.comCần xác định:
- IP máy chủ.
- Gateway.
- DNS.
- Có ra Internet được không để tải Ollama/model.
- Có truy cập được từ máy trong LAN không.
- Có cần proxy không.
- Firewall đang mở cổng nào.
Nếu máy chủ không ra Internet, có thể cần tải model bằng cách khác hoặc cấu hình mạng trước.
10. Lưu lại biên bản cấu hình
Sau khi kiểm tra, nên lưu lại thông tin cấu hình:
- CPU.
- RAM.
- GPU.
- VRAM.
- Driver.
- Ổ cứng.
- Mount point.
- IP.
- Ubuntu version.
- Kernel.
- Ngày kiểm tra.
- Người kiểm tra.
Đây là tài liệu vận hành quan trọng. Sau này khi lỗi hoặc nâng cấp, có cơ sở so sánh.
11. Kết luận
Kiểm tra CPU, RAM, GPU, VRAM và ổ cứng là bước bắt buộc trước khi cài Ollama. Bước này giúp xác định máy chủ có đủ điều kiện chạy AI local hay không, chọn model phù hợp và tránh lỗi do phần cứng hoặc mount sai.
Trong bệnh viện, kiểm tra phần cứng không chỉ phục vụ cài đặt ban đầu, mà còn là một phần của quản trị vận hành. Cấu hình phải được ghi lại, theo dõi và cập nhật khi có thay đổi.
- Đăng nhập để gửi ý kiến