Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "HI.AI Members" các nội dung bạn quan tâm.

Bài 2. Chọn model theo VRAM và RAM

1. Đặt vấn đề

Chọn model là quyết định ảnh hưởng trực tiếp đến tốc độ, chất lượng và khả năng vận hành AI local. Model quá nhỏ thì nhanh nhưng trả lời yếu, dễ thiếu lập luận. Model quá lớn thì có thể trả lời tốt hơn nhưng chậm, tốn VRAM, khó phục vụ nhiều người dùng. Trong bệnh viện, cần chọn model theo phần cứng thực tế và theo tác vụ, không chọn theo cảm tính hoặc theo quảng cáo.

Với máy chủ có GPU 16GB, RAM lớn và CPU nhiều nhân, bệnh viện có thể chạy nhiều model khác nhau, nhưng cần hiểu giới hạn VRAM và RAM để tránh cấu hình quá sức.

2. VRAM quyết định model tương tác

Với chatbot cần phản hồi nhanh, model nên nằm chủ yếu trên GPU. Nếu model vượt VRAM và phải offload nhiều sang CPU, tốc độ sẽ giảm rõ rệt. Do đó, VRAM là yếu tố quyết định khi chọn model chat tương tác.

GPU 16GB thường phù hợp với:

  • Model 3B–4B rất thoải mái.
  • Model 7B–8B quantized phù hợp cho nhiều tác vụ.
  • Model 14B quantized có thể chạy nhưng cần kiểm tra tốc độ và context.
  • Model lớn hơn thường không phù hợp cho phục vụ nhiều người dùng tương tác trên GPU 16GB.

3. RAM quyết định khả năng xử lý nền và CPU inference

RAM lớn giúp:

  • Chạy model bằng CPU khi cần.
  • Xử lý FAISS lớn.
  • Lưu metadata.
  • Chạy nhiều container.
  • Batch embedding.
  • Xử lý tài liệu lớn.
  • Duy trì cache.
  • Chạy nhiều quy trình song song.

Tuy nhiên, RAM lớn không thay thế hoàn toàn VRAM cho tác vụ sinh câu trả lời tốc độ cao.

4. Phân loại model theo tác vụ bệnh viện

4.1. Model nhỏ

Phù hợp:

  • FAQ.
  • Phân loại văn bản.
  • Tóm tắt ngắn.
  • Gợi ý tiêu đề.
  • Chatbot hướng dẫn đơn giản.
  • Tác vụ nhiều người dùng cần nhanh.

Ưu điểm: nhanh, nhẹ, ít tốn tài nguyên.
Nhược điểm: lập luận sâu và viết dài có thể yếu.

4.2. Model trung bình

Phù hợp:

  • Viết kế hoạch.
  • Viết báo cáo.
  • Tạo bảng kiểm.
  • Phân tích quy trình.
  • Hỗ trợ QLCL.
  • Tóm tắt tài liệu dài vừa.
  • Chatbot RAG nội bộ.

Đây thường là nhóm phù hợp nhất cho bệnh viện.

4.3. Model lớn

Phù hợp:

  • Đề án dài.
  • Phân tích phức tạp.
  • Tổng hợp nhiều nguồn.
  • Viết học thuật.
  • Nghiên cứu khoa học.
  • Tác vụ ít người dùng, chấp nhận chậm.

Không nên dùng mặc định cho mọi người dùng.

5. Chọn model theo vai trò sử dụng

Bệnh viện có thể dùng nhiều model:

  • assistant-fast: model nhỏ, trả lời nhanh.
  • assistant-qlcl: model trung bình cho quản lý chất lượng.
  • assistant-khth: model trung bình cho kế hoạch, báo cáo.
  • assistant-cntt: model chuyên hỗ trợ kỹ thuật, có prompt kiểm soát lệnh.
  • assistant-deep: model lớn hơn cho phân tích sâu, ít người dùng.
  • embedding-model: model riêng để tạo embedding.

Không nên dùng một model duy nhất cho mọi thứ.

6. Chọn model theo tiếng Việt

Vì bệnh viện làm việc chủ yếu bằng tiếng Việt, cần kiểm tra:

  • Khả năng hiểu tiếng Việt.
  • Khả năng viết văn bản hành chính tiếng Việt.
  • Khả năng giữ thuật ngữ y tế.
  • Khả năng làm theo hướng dẫn.
  • Khả năng không bịa khi thiếu nguồn.
  • Khả năng tạo bảng, checklist.
  • Khả năng tóm tắt văn bản dài.

Benchmark phải dùng tài liệu tiếng Việt thực tế, không chỉ hỏi câu tiếng Anh.

7. Chọn model theo context

Một số tác vụ RAG cần context vừa phải. Một số tác vụ viết đề án cần context lớn hơn. Tuy nhiên, context lớn làm tăng VRAM và thời gian xử lý. Nếu model hỗ trợ context lớn nhưng phần cứng không đủ, nên giới hạn context ở mức thực tế.

Cách tốt hơn là chia tác vụ:

  • Tóm tắt từng phần.
  • Tổng hợp nhiều bước.
  • Dùng RAG chọn đoạn liên quan.
  • Không nhồi toàn bộ tài liệu vào prompt.

8. Quantization và chất lượng

Với GPU 16GB, bản Q4 thường là lựa chọn cân bằng. Nếu tác vụ cần chất lượng cao và vẫn đủ VRAM, có thể thử Q5. Không nên chọn Q8 nếu làm hệ thống phản hồi nhiều người dùng mà VRAM hạn chế.

Cần benchmark thực tế vì mỗi model khác nhau.

9. Một chiến lược chọn model thực tế

Bước triển khai:

  1. Chọn 2–3 model ứng viên.
  2. Cài qua Ollama.
  3. Tạo bộ câu hỏi bệnh viện thực tế.
  4. Đo tốc độ token/giây.
  5. Đo thời gian đến token đầu tiên.
  6. Đánh giá chất lượng câu trả lời.
  7. Đánh giá VRAM/RAM.
  8. Test với RAG.
  9. Test nhiều request đồng thời.
  10. Chọn model mặc định và model chuyên sâu.

10. Không chọn model chỉ vì điểm benchmark công khai

Benchmark công khai thường không phản ánh đúng nhu cầu bệnh viện. Bệnh viện cần model viết tiếng Việt tốt, hiểu văn bản hành chính, biết tạo bảng kiểm, biết bám nguồn RAG, ít bịa và chạy ổn trên phần cứng thực tế.

Điểm benchmark cao nhưng trả lời tiếng Việt kém hoặc chạy quá chậm thì không phù hợp.

11. Kết luận

Chọn model theo VRAM và RAM là bài toán cân bằng giữa tốc độ, chất lượng và khả năng phục vụ người dùng. Với GPU 16GB, bệnh viện nên ưu tiên model nhỏ/trung bình cho tác vụ thường ngày, dùng model lớn hơn cho phân tích sâu có kiểm soát. RAM lớn hỗ trợ RAG, FAISS và xử lý nền, nhưng chatbot tương tác vẫn cần model phù hợp với VRAM. Cách chọn đúng là benchmark trên dữ liệu và tác vụ bệnh viện thực tế.