Bài 2. Chọn model theo cấu hình phần cứng

1. Đặt vấn đề

AI local khác AI cloud ở điểm rất quan trọng: bệnh viện phải tự chịu trách nhiệm về phần cứng chạy model. Nếu dùng AI cloud, người dùng ít quan tâm model chạy trên GPU nào, VRAM bao nhiêu, RAM bao nhiêu. Nhưng với AI local, những thông số này quyết định trực tiếp model nào chạy được, tốc độ ra sao, có phục vụ nhiều người dùng được không và hệ thống có ổn định không.

Chọn model theo phần cứng là nguyên tắc bắt buộc. Một model quá lớn so với cấu hình sẽ gây chậm, đầy VRAM, đầy RAM hoặc không chạy được. Một model quá nhỏ thì chạy nhanh nhưng chất lượng có thể không đủ. Cần cân bằng giữa năng lực phần cứng và mục tiêu sử dụng.

2. Các thành phần phần cứng ảnh hưởng đến model

2.1. GPU và VRAM

GPU giúp tăng tốc inference. VRAM quyết định model có thể nạp vào GPU bao nhiêu. Đây là yếu tố rất quan trọng khi chọn LLM.

Model càng lớn, context càng dài, batch càng lớn thì càng cần nhiều VRAM. Nếu model không vừa VRAM, hệ thống phải offload sang RAM/CPU, tốc độ giảm mạnh.

2.2. RAM

RAM hỗ trợ hệ điều hành, Ollama, model offload, FAISS, API, xử lý tài liệu, embedding và các dịch vụ phụ trợ. RAM lớn giúp hệ thống ổn định hơn, đặc biệt khi bệnh viện xử lý kho tài liệu lớn.

2.3. CPU

CPU điều phối toàn bộ hệ thống và có thể chạy model nếu không dùng GPU. CPU nhiều nhân hữu ích cho xử lý tài liệu, embedding, API, web server, database và các tác vụ nền.

2.4. SSD

SSD ảnh hưởng đến tốc độ tải model, truy cập chỉ mục FAISS, đọc ghi dữ liệu và xử lý file. Nên lưu model và FAISS index trên SSD/NVMe.

2.5. HDD

HDD phù hợp lưu tài liệu gốc và backup, nhưng không nên là nơi chính để chạy model nếu có SSD.

3. Chọn model cho máy không có GPU

Nếu chưa có GPU, bệnh viện vẫn có thể chạy một số model nhỏ bằng CPU để học và thử nghiệm. Tuy nhiên, tốc độ thường chậm hơn nhiều.

Phù hợp với:

Model 1B–3B.
Tác vụ thử nghiệm.
Phân loại ngắn.
Tóm tắt văn bản ngắn.
Học cách gọi API.
Xây pipeline RAG ở mức kỹ thuật.

Không phù hợp với:

Chatbot nhiều người dùng.
Model 7B/14B trả lời dài thường xuyên.
Tác vụ cần phản hồi nhanh.
Triển khai chính thức cho nhiều phòng ban.

Nếu bệnh viện nghiêm túc triển khai AI local, GPU là rất cần thiết.

4. Chọn model cho GPU 8GB VRAM

GPU 8GB VRAM có thể chạy một số model nhỏ và model 7B/8B lượng tử hóa nhẹ, nhưng giới hạn khá rõ.

Phù hợp:

Model 3B.
Một số model 7B/8B Q4.
Chatbot thử nghiệm.
Soạn thảo ngắn.
Tóm tắt tài liệu vừa phải.
RAG nhẹ với prompt ngắn.

Hạn chế:

Khó chạy model 14B mượt.
Context dài dễ thiếu VRAM.
Nhiều người dùng đồng thời khó.
Viết văn bản dài có thể chậm.

Với 8GB VRAM, nên ưu tiên model nhỏ, prompt ngắn, RAG tối ưu và số người dùng hạn chế.

5. Chọn model cho GPU 12GB VRAM

GPU 12GB VRAM có dư địa tốt hơn. Có thể chạy nhiều model 7B/8B Q4/Q5 khá ổn và thử một số model lớn hơn với giới hạn.

Phù hợp:

Model 7B/8B.
Một số model 13B/14B lượng tử hóa nhẹ, tùy model.
Chatbot nội bộ nhỏ.
RAG cho tài liệu nội bộ.
Soạn thảo văn bản hành chính.
Hỗ trợ quản lý chất lượng ở mức vừa.

Cần kiểm tra thực tế vì mỗi model có nhu cầu VRAM khác nhau.

6. Chọn model cho GPU 16GB VRAM

GPU 16GB VRAM là cấu hình rất thực tế cho bệnh viện bắt đầu AI local nghiêm túc. Nó cho phép chạy tốt nhiều model 7B/8B, thử model 14B lượng tử hóa và phục vụ các tác vụ nội bộ nếu tối ưu hợp lý.

Phù hợp:

Model 7B/8B Q4, Q5, có thể Q8 tùy model.
Model 14B Q4/Q5 trong nhiều trường hợp.
Chatbot nội bộ.
Hỗ trợ soạn thảo văn bản.
RAG với FAISS.
Trợ lý quản lý chất lượng.
Trợ lý hành chính.
Trợ lý CNTT.
Tóm tắt tài liệu vừa và dài ở mức có kiểm soát.

Với 16GB VRAM, bệnh viện nên bắt đầu bằng model 7B/8B chất lượng tốt để có tốc độ tốt, sau đó thử 14B để so sánh chất lượng.

Không nên kỳ vọng 16GB VRAM chạy model 32B/70B mượt cho nhiều người dùng.

7. Chọn model cho GPU 24GB VRAM trở lên

GPU 24GB VRAM mở rộng khả năng đáng kể. Có thể chạy model 14B thoải mái hơn, thử một số model lớn hơn và context dài hơn.

Phù hợp:

Model 14B chất lượng cao.
Một số model 32B lượng tử hóa.
RAG với prompt dài hơn.
Nhiều tác vụ văn bản phức tạp.
Nhiều người dùng hơn nếu có quản lý request.

Tuy nhiên, vẫn cần benchmark. Model lớn hơn không tự động tốt hơn nếu chậm hoặc không phù hợp tiếng Việt.

8. Model theo RAM

Nếu RAM 32GB, nên thận trọng với model lớn và xử lý tài liệu lớn. RAM 64GB trở lên thuận lợi hơn cho RAG, FAISS, xử lý tài liệu và nhiều dịch vụ. RAM 128GB hoặc hơn giúp hệ thống thoải mái hơn khi chạy nhiều tác vụ, đặc biệt nếu có nhiều dữ liệu.

Trong bệnh viện có kho tài liệu lớn, RAM cao là lợi thế, vì hệ thống không chỉ chạy LLM mà còn xử lý dữ liệu, embedding, FAISS, web, database và backup.

9. Model theo số người dùng

Nếu chỉ một vài người dùng, có thể chọn model lớn hơn và chấp nhận phản hồi chậm hơn. Nếu nhiều người dùng, nên ưu tiên model nhanh, ổn định và có hàng đợi.

Ví dụ:

Nhóm thử nghiệm 2–5 người: có thể thử nhiều model.
Phòng ban 10–20 người: cần chọn model ổn định, tốc độ tốt.
Toàn bệnh viện: cần kiến trúc phục vụ, API, giới hạn request, monitoring và có thể cần nhiều máy chủ.

10. Không chọn model chỉ theo “chạy được”

Một model “chạy được” không có nghĩa là “dùng được”. Cần phân biệt:

Chạy được nhưng rất chậm.
Chạy được nhưng đầy VRAM.
Chạy được nhưng làm nóng GPU quá mức.
Chạy được nhưng không phục vụ đồng thời.
Chạy được nhưng câu trả lời kém.
Chạy được nhưng prompt RAG dài là lỗi.

Model phù hợp phải chạy ổn định trong điều kiện tác vụ thực tế.

11. Kết luận

Chọn model theo phần cứng là nguyên tắc cơ bản của AI local. GPU và VRAM quyết định model nào chạy mượt, RAM quyết định độ ổn định hệ thống, CPU xử lý tác vụ nền, SSD giúp tải model và truy xuất nhanh. Với GPU 16GB VRAM, bệnh viện nên ưu tiên model 7B/8B chất lượng tốt và thử 14B lượng tử hóa khi cần chất lượng cao hơn. Không nên chọn model vượt quá khả năng phần cứng chỉ vì thông số lớn.

Đăng nhập để gửi ý kiến

1. Đặt vấn đề

2. Các thành phần phần cứng ảnh hưởng đến model

2.1. GPU và VRAM

2.2. RAM

2.3. CPU

2.4. SSD

2.5. HDD

3. Chọn model cho máy không có GPU

4. Chọn model cho GPU 8GB VRAM

5. Chọn model cho GPU 12GB VRAM

6. Chọn model cho GPU 16GB VRAM

7. Chọn model cho GPU 24GB VRAM trở lên

8. Model theo RAM

9. Model theo số người dùng

10. Không chọn model chỉ theo “chạy được”

11. Kết luận

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

Câu hỏi, thảo luận