Bài 3. Phân vai trò CPU, GPU, RAM, SSD, HDD

1. Đặt vấn đề

Một hệ thống AI local hiệu quả không chỉ phụ thuộc vào phần cứng mạnh, mà phụ thuộc vào việc phân vai đúng cho từng thành phần. Nếu đặt toàn bộ dữ liệu nóng trên HDD, hệ thống có thể chậm. Nếu dùng GPU cho batch không cần thiết trong giờ cao điểm, chatbot có thể nghẽn. Nếu chạy model quá lớn vượt VRAM, CPU và RAM bị kéo theo làm giảm hiệu năng. Nếu không dùng RAM lớn cho FAISS/cache, truy xuất dữ liệu có thể kém hiệu quả.

Do đó, cần hiểu rõ CPU, GPU, RAM, SSD và HDD nên làm gì trong hệ thống AI bệnh viện.

2. Vai trò của CPU

CPU là trung tâm xử lý hệ thống. CPU nên phụ trách:

Hệ điều hành.
API trung gian.
Nginx.
Xử lý request.
Xác thực, phân quyền.
Truy vấn metadata.
Xử lý file.
Làm sạch văn bản.
Chunking.
Script backup.
FAISS CPU search.
Một số tác vụ batch.
Các service nền.

CPU không nên bị ép chạy model lớn tương tác nếu mục tiêu là trả lời nhanh, trừ khi không có GPU hoặc tác vụ không gấp.

3. Vai trò của GPU

GPU nên phụ trách:

Sinh câu trả lời LLM.
Chatbot tương tác.
RAG generation.
Tóm tắt nhanh.
Viết báo cáo/bảng kiểm.
Model trung bình cần tốc độ.
Embedding batch khi cần tăng tốc và ngoài giờ cao điểm.

GPU là tài nguyên đắt và dễ nghẽn, nên cần quản lý bằng queue, rate limit và phân loại tác vụ.

4. Vai trò của RAM

RAM là bộ nhớ làm việc của hệ thống. RAM nên dùng cho:

FAISS index.
Metadata cache.
Xử lý tài liệu.
Chạy nhiều process.
Docker/service.
Batch embedding.
CPU inference khi cần.
Tránh swap.
Cache tài liệu thường dùng.
Cache truy vấn RAG.

RAM lớn giúp hệ thống ổn định khi dữ liệu tăng.

5. Vai trò của SSD/NVMe

SSD/NVMe nên chứa dữ liệu cần tốc độ:

Ubuntu root hoặc phần dịch vụ chính.
Ollama model thường dùng.
FAISS index hiện hành.
Metadata database.
Code API.
Cache.
File tạm xử lý.
Log nóng.
Queue database nếu có.
Docker volume quan trọng.

Nếu model nằm trên SSD, thời gian load model tốt hơn. Nếu FAISS nằm trên SSD, truy xuất và rebuild index thuận lợi hơn.

6. Vai trò của HDD

HDD nên dùng cho dữ liệu lớn, ít cần tốc độ realtime:

Tài liệu gốc.
File archive.
Backup.
Bản index cũ.
Log cũ.
Dataset cũ.
Tài liệu scan/PDF lớn.
Bản dump database.
File xuất báo cáo.

HDD 12TB x 2 rất phù hợp cho backup và kho tài liệu, nhưng không nên dùng làm nơi duy nhất cho model/index đang phục vụ realtime nếu có SSD/NVMe.

7. Phân vai theo tác vụ

Chatbot tra cứu quy trình

GPU: sinh câu trả lời.
CPU: API, phân quyền.
RAM: FAISS/metadata.
SSD: index/model.
HDD: tài liệu gốc/backup.

Batch tạo embedding

CPU/GPU: tùy lịch.
RAM: xử lý chunk.
SSD: file tạm/index mới.
HDD: tài liệu gốc.

Backup

CPU: nén/rsync.
HDD: lưu backup.
SSD: nguồn dữ liệu nóng.
GPU: không cần.

Benchmark model

GPU: inference.
CPU/RAM: giám sát và API.
SSD: model.
Log: lưu kết quả.

8. Tránh tranh chấp tài nguyên

Cần tránh:

Embedding batch chiếm GPU khi người dùng đang chat.
Backup nặng làm chậm ổ đang chạy database.
Log tăng làm đầy SSD.
Model lớn chiếm hết VRAM.
Nhiều model loaded cùng lúc.
FAISS rebuild làm nghẽn CPU/RAM trong giờ làm việc.

Giải pháp là lập lịch và hàng đợi.

9. Cấu trúc lưu trữ gợi ý

Có thể tổ chức:

SSD/NVMe: /opt/ai, /var/lib/ollama, /mnt/ai/index, /mnt/ai/db.
HDD: /mnt/data/documents, /mnt/backup, /mnt/archive.
Thư mục tạm: /mnt/ai/tmp.
Log: /var/log/ai hoặc phân vùng riêng nếu cần.

Cần điều chỉnh theo mount point thực tế.

10. Khi nào cần nâng cấp phần cứng?

Nâng cấp GPU khi:

Model phù hợp nhưng quá chậm.
VRAM thường xuyên đầy.
Nhiều người dùng đồng thời.
Cần model lớn hơn.

Nâng cấp RAM khi:

Swap xuất hiện.
FAISS/index lớn.
Batch xử lý tài liệu chậm do thiếu RAM.

Nâng cấp SSD khi:

Index/model/cache thiếu dung lượng.
Load model chậm.
Database/log nóng làm đầy ổ.

Nâng cấp HDD khi:

Backup/tài liệu tăng.
Retention dài.
Kho tài liệu lớn.

11. Kết luận

Phân vai CPU, GPU, RAM, SSD và HDD giúp hệ thống AI local chạy ổn định và hiệu quả. GPU dành cho sinh câu trả lời, CPU cho xử lý hệ thống và dữ liệu, RAM cho FAISS/cache/batch, SSD cho dữ liệu nóng, HDD cho kho lớn và backup. Khi phân vai đúng, bệnh viện tận dụng tốt phần cứng hiện có và tránh nghẽn tài nguyên không cần thiết.

Đăng nhập để gửi ý kiến