Bài 7. CPU, GPU, RAM, VRAM và tốc độ sinh token

1. Đặt vấn đề

Khi triển khai AI local, phần cứng quyết định rất nhiều đến trải nghiệm sử dụng. Cùng một model, nếu chạy trên CPU yếu có thể phản hồi rất chậm; nếu chạy trên GPU phù hợp có thể nhanh hơn nhiều. Cùng một GPU, nếu VRAM không đủ, model phải chia sang RAM/CPU và tốc độ giảm rõ rệt. Nếu RAM thiếu, hệ thống dễ treo. Nếu SSD chậm, việc tải model và xử lý dữ liệu có thể bị ảnh hưởng.

Trong bệnh viện, AI local không phải chỉ chạy thử một câu hỏi. Hệ thống có thể phục vụ nhiều người dùng, nhiều phòng ban, nhiều tác vụ: soạn thảo, tóm tắt, hỏi đáp RAG, tạo embedding, cập nhật FAISS. Vì vậy, hiểu vai trò của CPU, GPU, RAM, VRAM và tốc độ sinh token là nền tảng để thiết kế hệ thống ổn định.

2. CPU có vai trò gì?

CPU là bộ xử lý trung tâm của máy chủ. Trong hệ thống AI local, CPU đảm nhiệm nhiều nhiệm vụ:

Chạy hệ điều hành.
Quản lý tiến trình.
Xử lý API.
Điều phối dữ liệu.
Chạy một phần inference nếu không dùng GPU hoàn toàn.
Tiền xử lý tài liệu.
Chia chunk.
Tạo hoặc quản lý pipeline RAG.
Chạy cơ sở dữ liệu, web server, dịch vụ phụ trợ.

Một số model có thể chạy hoàn toàn bằng CPU, nhất là model nhỏ hoặc khi không có GPU. Tuy nhiên, tốc độ thường chậm hơn GPU nhiều, đặc biệt với LLM lớn.

Trong bệnh viện, CPU vẫn rất quan trọng ngay cả khi có GPU. Một máy chủ AI không chỉ cần GPU mạnh mà còn cần CPU đủ tốt để xử lý các dịch vụ xung quanh. Với các tác vụ FAISS, xử lý tài liệu, API và nhiều tiến trình đồng thời, CPU nhiều nhân có lợi thế.

3. GPU có vai trò gì?

GPU là thành phần tăng tốc tính toán cho model AI. LLM cần thực hiện rất nhiều phép toán ma trận. GPU được thiết kế để xử lý song song mạnh, vì vậy phù hợp cho inference AI.

Khi model chạy trên GPU, tốc độ sinh token thường nhanh hơn đáng kể so với CPU. Điều này ảnh hưởng trực tiếp đến trải nghiệm người dùng. Một chatbot nội bộ nếu trả lời quá chậm sẽ khó được sử dụng thường xuyên.

Tuy nhiên, GPU không chỉ cần “mạnh”, mà còn cần đủ VRAM. GPU có VRAM thấp có thể không chứa được model lớn. Khi model không vừa VRAM, hệ thống phải offload một phần sang RAM/CPU, làm giảm tốc độ.

4. VRAM là gì và vì sao quan trọng?

VRAM là bộ nhớ trên GPU. Đây là nơi chứa model hoặc một phần model trong quá trình chạy. Với AI local, VRAM là một trong những giới hạn quan trọng nhất.

Model càng lớn, context càng dài, batch càng lớn thì càng cần nhiều VRAM. Nếu VRAM đủ, model chạy mượt hơn. Nếu VRAM thiếu, tốc độ giảm hoặc model không chạy được.

Ví dụ, GPU 16GB VRAM thường phù hợp với nhiều model 7B/8B lượng tử hóa và có thể thử một số model 14B lượng tử hóa. Nhưng để chạy model 32B hoặc 70B mượt, thường cần VRAM lớn hơn nhiều hoặc nhiều GPU.

Trong bệnh viện, cần chọn model theo VRAM thực tế, không chọn theo mong muốn. Một model vừa VRAM và chạy nhanh thường tốt hơn một model lớn nhưng quá chậm.

5. RAM có vai trò gì?

RAM là bộ nhớ hệ thống. RAM cần cho hệ điều hành, dịch vụ, xử lý tài liệu, vector database, cache, API, web server và phần model không nằm trên GPU. Khi chạy model lớn hoặc xử lý tài liệu dài, RAM rất quan trọng.

Nếu RAM thiếu, hệ thống có thể swap ra ổ cứng, gây chậm nghiêm trọng. Trong một số trường hợp, tiến trình có thể bị kill hoặc máy chủ treo.

Với bệnh viện có nhu cầu RAG và xử lý nhiều tài liệu, RAM lớn là lợi thế. RAM không chỉ phục vụ LLM mà còn phục vụ FAISS, xử lý file PDF/DOCX, embedding, database, web server và các dịch vụ tích hợp.

6. Tốc độ sinh token là gì?

Tốc độ sinh token thường được đo bằng token/giây. Đây là số token model tạo ra mỗi giây trong quá trình trả lời. Tốc độ này ảnh hưởng đến thời gian người dùng chờ.

Ví dụ, nếu model sinh 20 token/giây, câu trả lời 600 token có thể mất khoảng 30 giây, chưa tính thời gian xử lý prompt. Nếu chỉ sinh 5 token/giây, cùng câu trả lời có thể mất khoảng 2 phút. Trong môi trường bệnh viện, tốc độ quá chậm sẽ làm người dùng nản.

Tốc độ sinh token phụ thuộc vào:

Model lớn hay nhỏ.
Mức quantization.
GPU.
VRAM.
CPU.
RAM.
Context length.
Phần mềm inference.
Số người dùng đồng thời.
Nhiệt độ và trạng thái hệ thống.
Việc model có vừa VRAM hay không.

7. Prompt dài làm chậm như thế nào?

Một câu hỏi ngắn thường xử lý nhanh hơn một prompt dài chứa nhiều tài liệu. Trong RAG, nếu đưa quá nhiều chunk vào prompt, model cần đọc nhiều ngữ cảnh hơn trước khi trả lời. Điều này làm tăng thời gian phản hồi.

Vì vậy, tối ưu RAG không chỉ để tăng độ chính xác mà còn để tăng tốc độ. Chọn đúng 3–5 đoạn tài liệu liên quan có thể tốt hơn đưa 20 đoạn dài vào prompt.

Trong bệnh viện, nên thiết kế hệ thống để kiểm soát độ dài prompt, giới hạn số tài liệu đưa vào và yêu cầu câu trả lời vừa đủ.

8. Nhiều người dùng đồng thời

Một hệ thống chạy tốt cho một người dùng chưa chắc chạy tốt cho nhiều người dùng. Khi nhiều nhân viên cùng hỏi, GPU và CPU phải xử lý nhiều request. Nếu không có hàng đợi hoặc giới hạn, hệ thống có thể chậm hoặc lỗi.

Bệnh viện cần tính toán:

Số người dùng dự kiến.
Số request cùng lúc.
Loại tác vụ thường dùng.
Model mặc định.
Có cần nhiều model không.
Có cần tách server embedding và server LLM không.
Có cần giới hạn độ dài câu trả lời không.

Giai đoạn đầu, có thể triển khai cho một nhóm nhỏ trước, đo tốc độ thực tế rồi mở rộng.

9. Cấu hình thực tế nên ưu tiên gì?

Với bệnh viện bắt đầu AI local, nên ưu tiên cân bằng:

GPU đủ VRAM cho model mục tiêu.
RAM lớn để xử lý tài liệu và RAG.
SSD nhanh để lưu model và chỉ mục.
HDD lớn để lưu tài liệu và backup.
CPU đủ nhân để xử lý dịch vụ phụ trợ.
UPS để đảm bảo an toàn nguồn điện.
Làm mát tốt để GPU chạy ổn định.

Không nên chỉ nhìn GPU. Một hệ thống AI local tốt là hệ thống cân bằng giữa GPU, CPU, RAM, SSD, mạng, nguồn điện, backup và vận hành.

10. Kết luận

CPU, GPU, RAM, VRAM và tốc độ sinh token là các yếu tố kỹ thuật quyết định khả năng vận hành AI local. GPU giúp tăng tốc model, VRAM quyết định model có chạy mượt hay không, RAM hỗ trợ xử lý hệ thống và dữ liệu, CPU điều phối toàn bộ dịch vụ, còn tốc độ sinh token quyết định trải nghiệm người dùng.

Trong bệnh viện, lựa chọn phần cứng và model phải dựa trên tác vụ thực tế. Không nên chạy model lớn vượt khả năng phần cứng. Nên bắt đầu bằng model vừa sức, đo tốc độ, tối ưu prompt, kiểm soát số người dùng đồng thời và mở rộng theo lộ trình.

Đăng nhập để gửi ý kiến