Bài 6. Quantization: GGUF, Q4, Q5, Q8 và ý nghĩa khi triển khai tại bệnh viện

1. Đặt vấn đề

Khi tải model AI local, người dùng thường thấy các ký hiệu như GGUF, Q4_K_M, Q5_K_M, Q8_0 hoặc các biến thể tương tự. Đây là các thuật ngữ liên quan đến định dạng model và quantization. Với người không chuyên, các ký hiệu này có vẻ khó hiểu. Tuy nhiên, chúng ảnh hưởng trực tiếp đến việc model có chạy được trên máy chủ bệnh viện hay không, chạy nhanh hay chậm, chiếm bao nhiêu VRAM/RAM và chất lượng câu trả lời có bị giảm nhiều không.

Trong môi trường bệnh viện, phần cứng thường có giới hạn nhất định. Không phải bệnh viện nào cũng có nhiều GPU VRAM lớn. Vì vậy, quantization là kỹ thuật rất quan trọng giúp chạy các model lớn hơn trên phần cứng nhỏ hơn. Nếu hiểu đúng, bệnh viện có thể chọn phiên bản model phù hợp với máy chủ hiện có, tránh tình trạng tải model quá nặng, chạy chậm hoặc hết bộ nhớ.

2. GGUF là gì?

GGUF là một định dạng file model phổ biến trong hệ sinh thái llama.cpp và các công cụ liên quan như Ollama. Nó được thiết kế để lưu model theo cách phù hợp cho inference local trên CPU/GPU.

Khi dùng Ollama, người dùng thường không cần thao tác trực tiếp với file GGUF, vì Ollama đã quản lý việc tải và chạy model. Tuy nhiên, hiểu GGUF giúp người quản trị biết rằng model local thường là các file lớn được lưu trên ổ cứng, có thể chiếm từ vài GB đến hàng chục GB tùy quy mô model và mức quantization.

Trong bệnh viện, điều này liên quan đến quản lý dung lượng lưu trữ. Nếu tải nhiều model, ổ SSD hoặc thư mục lưu model có thể nhanh chóng đầy. Cần thiết kế thư mục lưu model, backup và chính sách xóa model không dùng.

3. Quantization là gì?

Quantization là kỹ thuật giảm độ chính xác số học của trọng số model để giảm dung lượng và giảm nhu cầu bộ nhớ khi chạy. Thay vì lưu trọng số với độ chính xác cao, model được nén xuống mức thấp hơn như 8-bit, 5-bit hoặc 4-bit.

Hiểu đơn giản, quantization giúp model nhẹ hơn. Model nhẹ hơn thì:

Chiếm ít dung lượng ổ cứng hơn.
Cần ít RAM/VRAM hơn.
Có thể chạy trên phần cứng yếu hơn.
Thường chạy nhanh hơn trong một số điều kiện.

Đổi lại, quantization có thể làm giảm chất lượng model. Mức giảm nhiều hay ít tùy model, mức quantization và tác vụ.

4. Q4, Q5, Q8 có nghĩa là gì?

Các ký hiệu Q4, Q5, Q8 thường biểu thị mức lượng tử hóa.

Q4 nghĩa là model được lượng tử hóa khoảng 4-bit. Đây là mức nhẹ, tiết kiệm bộ nhớ, phù hợp với phần cứng hạn chế. Chất lượng có thể giảm so với bản đầy đủ, nhưng nhiều model Q4 hiện nay vẫn đủ tốt cho nhiều tác vụ thực tế.

Q5 nghĩa là khoảng 5-bit. Đây là mức cân bằng hơn giữa chất lượng và tài nguyên. Q5 thường cần nhiều bộ nhớ hơn Q4 nhưng có thể cho chất lượng tốt hơn.

Q8 nghĩa là khoảng 8-bit. Đây là mức giữ chất lượng tốt hơn, nhưng dung lượng và nhu cầu bộ nhớ cao hơn. Q8 phù hợp khi phần cứng đủ mạnh và cần chất lượng cao hơn.

Các hậu tố như K_M, K_S là biến thể kỹ thuật của phương pháp quantization. Người dùng phổ thông không cần hiểu quá sâu, nhưng nên biết rằng Q4_K_M thường là lựa chọn cân bằng phổ biến trong nhiều trường hợp.

5. Quantization ảnh hưởng gì đến bệnh viện?

Trong triển khai AI local bệnh viện, quantization ảnh hưởng đến bốn yếu tố chính.

5.1. Khả năng chạy model

Một model 14B bản nặng có thể không chạy được trên GPU 16GB, nhưng bản Q4 có thể chạy được. Nhờ quantization, bệnh viện có thể sử dụng model lớn hơn so với khả năng phần cứng nếu dùng bản đầy đủ.

5.2. Tốc độ phản hồi

Model nhẹ hơn thường tải nhanh hơn và có thể sinh token nhanh hơn, nhất là khi vừa với VRAM. Nếu model vượt VRAM và phải offload sang RAM/CPU, tốc độ có thể giảm mạnh.

5.3. Chất lượng câu trả lời

Quantization quá mạnh có thể làm model kém chính xác hơn, đặc biệt với tác vụ lập luận phức tạp, viết văn bản dài hoặc xử lý ngữ cảnh tinh tế. Tuy nhiên, với nhiều tác vụ hành chính, tóm tắt, RAG và hỏi đáp nội bộ, Q4 hoặc Q5 có thể đủ dùng nếu model nền tốt.

5.4. Số lượng model có thể lưu trữ

Model Q4 nhẹ hơn, giúp lưu nhiều model hơn trên ổ cứng. Tuy nhiên, bệnh viện không nên tải quá nhiều model không cần thiết. Cần có chính sách quản lý model rõ ràng.

6. Chọn Q4, Q5 hay Q8?

Không có lựa chọn tuyệt đối. Cần chọn theo phần cứng và tác vụ.

Nếu phần cứng hạn chế, cần tốc độ và dùng cho tác vụ phổ thông, Q4 là lựa chọn hợp lý.

Nếu cần cân bằng chất lượng và vẫn muốn tiết kiệm tài nguyên, Q5 thường đáng thử.

Nếu phần cứng đủ mạnh và cần chất lượng cao hơn, Q8 có thể phù hợp.

Đối với máy chủ bệnh viện có GPU 16GB VRAM, nên bắt đầu bằng các model 7B/8B Q4 hoặc Q5. Có thể thử 14B Q4 để đánh giá chất lượng và tốc độ thực tế. Không nên chọn bản quá nặng nếu hệ thống phải phục vụ nhiều người dùng.

7. Quantization và RAG

Trong hệ thống RAG, chất lượng câu trả lời không chỉ phụ thuộc vào quantization của LLM. Nếu tài liệu truy xuất đúng, model Q4 vẫn có thể trả lời tốt vì nó dựa trên nguồn cụ thể. Ngược lại, model Q8 hoặc model lớn hơn vẫn có thể trả lời sai nếu truy xuất sai tài liệu.

Vì vậy, khi triển khai RAG trong bệnh viện, cần đánh giá toàn bộ chuỗi:

Chất lượng tài liệu.
Cách chia chunk.
Embedding model.
Vector search.
Reranker nếu có.
Prompt.
LLM.
Mức quantization.
Cách hiển thị nguồn.

Không nên đổ lỗi hoàn toàn cho Q4 nếu hệ thống trả lời sai. Có thể lỗi nằm ở truy xuất tài liệu hoặc prompt.

8. Cách kiểm tra thực tế

Bệnh viện nên kiểm tra các mức quantization bằng bộ câu hỏi thực tế. Ví dụ:

Viết kế hoạch cải tiến chất lượng.
Tóm tắt quy trình nội bộ.
Trả lời câu hỏi từ tài liệu RAG.
Tạo bảng kiểm giám sát.
Viết công văn hành chính.
Phân tích nguyên nhân sự cố đã ẩn danh.

Sau đó so sánh:

Câu trả lời có đúng không?
Có bám tài liệu không?
Có viết tiếng Việt tốt không?
Có bị lặp không?
Tốc độ có chấp nhận được không?
VRAM/RAM sử dụng bao nhiêu?
Có ổn định khi hỏi nhiều lần không?

Đánh giá thực tế quan trọng hơn đọc thông số lý thuyết.

9. Kết luận

GGUF là định dạng model phổ biến trong AI local. Quantization là kỹ thuật giúp giảm dung lượng và nhu cầu bộ nhớ của model, làm cho việc chạy AI local trên phần cứng bệnh viện trở nên khả thi hơn. Các mức Q4, Q5, Q8 thể hiện sự cân bằng giữa tài nguyên và chất lượng.

Đối với bệnh viện, lựa chọn quantization phải dựa trên phần cứng, tốc độ mong muốn, chất lượng cần thiết và tác vụ cụ thể. Q4/Q5 thường là lựa chọn thực tế cho giai đoạn đầu, đặc biệt với GPU VRAM vừa phải. Điều quan trọng là kiểm tra bằng chính các tình huống bệnh viện, không chỉ dựa vào thông số model.

Đăng nhập để gửi ý kiến