Bài 9. Benchmark model trên máy chủ thực tế

1. Đặt vấn đề

Benchmark công khai chỉ có giá trị tham khảo. Model chạy trên máy chủ thực tế của bệnh viện mới là điều quan trọng. Cùng một model có thể chạy khác nhau tùy GPU, VRAM, CPU, RAM, quantization, context, prompt, số người dùng đồng thời, RAG và cấu hình hệ thống. Vì vậy, bệnh viện cần tự benchmark model trên chính máy chủ của mình.

Benchmark không chỉ đo tốc độ token/giây. Cần đo cả chất lượng câu trả lời, độ ổn định, mức sử dụng tài nguyên và mức độ phù hợp với tác vụ bệnh viện.

2. Mục tiêu benchmark

Benchmark cần trả lời:

Model nào chạy nhanh nhất?
Model nào trả lời tiếng Việt tốt nhất?
Model nào phù hợp RAG?
Model nào viết văn bản bệnh viện tốt?
Model nào ít hallucination hơn?
Model nào dùng VRAM/RAM bao nhiêu?
Model nào chịu được nhiều request hơn?
Model nào phù hợp làm mặc định?
Model nào chỉ nên dùng cho tác vụ chuyên sâu?

3. Chọn model ứng viên

Nên chọn 2–5 model ứng viên, ví dụ theo nhóm:

Model nhỏ/nhanh.
Model trung bình.
Model mạnh hơn.
Model chuyên code nếu cần CNTT.
Embedding model riêng.

Không nên benchmark quá nhiều model cùng lúc nếu chưa có bộ câu hỏi chuẩn.

4. Bộ câu hỏi benchmark bệnh viện

Cần xây bộ câu hỏi thực tế:

Nhóm quản trị

Viết kế hoạch.
Tóm tắt báo cáo.
Tạo biên bản họp.
Phân tích văn bản chỉ đạo.

Nhóm QLCL

Tạo bảng kiểm.
Phân tích nguyên nhân.
Viết kế hoạch cải tiến.
Tra cứu tiêu chí qua RAG.

Nhóm điều dưỡng

Tạo checklist chăm sóc.
Viết tài liệu đào tạo.
Tạo tình huống giao tiếp.

Nhóm CNTT

Phân tích lỗi Linux/Drupal.
Viết script an toàn.
Tạo checklist backup.

Nhóm chuyên môn thận trọng

Tóm tắt hướng dẫn chuyên môn.
Tạo phiếu hướng dẫn người bệnh.
Từ chối câu hỏi chẩn đoán/kê đơn.

5. Chỉ số tốc độ cần đo

Cần đo:

Time to first token.
Total response time.
Tokens per second.
Input token count.
Output token count.
RAG retrieval time.
Prompt build time.
Embedding time.
Queue wait time.
Error/timeout rate.

Không chỉ đo tổng thời gian, vì cần biết chậm ở đâu.

6. Chỉ số tài nguyên cần đo

Trong lúc benchmark, ghi:

VRAM sử dụng.
GPU utilization.
CPU usage.
RAM usage.
Swap.
Nhiệt độ GPU.
Power.
Disk I/O nếu có file lớn.
Số model loaded.

Điều này giúp biết model có phù hợp phần cứng không.

7. Chỉ số chất lượng cần đánh giá

Có thể chấm 1–5 cho:

Đúng yêu cầu.
Tiếng Việt tự nhiên.
Văn phong bệnh viện.
Cấu trúc rõ.
Không bịa số liệu.
Không bịa căn cứ.
Bám nguồn RAG.
Biết nói thiếu căn cứ.
Tạo bảng/checklist dùng được.
Không vượt thẩm quyền chuyên môn.

Chất lượng phải do người hiểu nghiệp vụ đánh giá, không chỉ phòng CNTT.

8. Benchmark RAG riêng

Với RAG, cần đo riêng:

Truy xuất đúng tài liệu không.
Chunk đúng có nằm trong top-k không.
Model có dùng nguồn không.
Có trích nguồn đúng không.
Có trả lời khi không có nguồn không.
Prompt có quá dài không.

Nếu RAG trả lời sai, cần biết lỗi do retrieval hay model.

9. Benchmark đồng thời

Cần test:

1 user.
3 user.
5 user.
10 user nếu dự kiến có.
Request ngắn.
Request dài.
RAG bật.
Tác vụ batch chạy song song.

Mục tiêu là biết ngưỡng hệ thống bắt đầu chậm hoặc lỗi.

10. Ghi kết quả benchmark

Nên lập bảng:

| Model | Quant | Context | Tốc độ | VRAM | Chất lượng | Phù hợp tác vụ | Ghi chú |
|---|---|---|---|---|---|---|

Từ đó quyết định:

Model mặc định.
Model nhanh.
Model chuyên sâu.
Model không dùng.
Cấu hình context.
Giới hạn người dùng đồng thời.

11. Benchmark định kỳ

Model, Ollama, driver, dữ liệu RAG và prompt đều thay đổi theo thời gian. Cần benchmark lại khi:

Cài model mới.
Đổi GPU/driver.
Đổi quantization.
Đổi context.
Đổi prompt.
Đổi pipeline RAG.
Tăng số người dùng.
Sau khi cập nhật Ollama.

12. Kết luận

Benchmark model trên máy chủ thực tế là bước bắt buộc để chọn model phù hợp cho bệnh viện. Cần đo tốc độ, tài nguyên, chất lượng, RAG và đồng thời. Không nên chọn model chỉ theo cảm giác hoặc benchmark công khai. Model tốt nhất là model chạy ổn trên phần cứng hiện có, trả lời tốt tiếng Việt bệnh viện, bám nguồn, ít bịa và đáp ứng được số người dùng thực tế.

Đăng nhập để gửi ý kiến