Bài 4. Tham số mô hình: 1B, 3B, 7B, 8B, 14B, 32B, 70B

1. Đặt vấn đề

Khi lựa chọn model AI local, người dùng thường gặp các ký hiệu như 1B, 3B, 7B, 8B, 14B, 32B, 70B. Đây là cách biểu thị số lượng tham số của mô hình. Nhiều người có xu hướng nghĩ rằng số càng lớn thì model càng tốt và nên chọn model lớn nhất có thể. Cách hiểu này chỉ đúng một phần.

Trong triển khai AI local tại bệnh viện, số tham số là yếu tố quan trọng nhưng không phải yếu tố duy nhất. Model lớn thường có khả năng tốt hơn, nhưng cũng cần nhiều VRAM/RAM hơn, chạy chậm hơn, tốn điện hơn và khó phục vụ nhiều người dùng đồng thời hơn. Model nhỏ có thể kém hơn về lập luận phức tạp, nhưng lại nhanh, nhẹ, dễ triển khai và phù hợp với nhiều tác vụ hành chính hoặc tra cứu đơn giản.

Vì vậy, bệnh viện cần hiểu ý nghĩa thực tế của các mức tham số để chọn model phù hợp với phần cứng và mục tiêu sử dụng.

2. Tham số mô hình là gì?

Tham số là các giá trị số bên trong model, được điều chỉnh trong quá trình huấn luyện. Có thể hiểu đơn giản tham số là phần “trọng số” giúp model biểu diễn kiến thức, ngôn ngữ và quy luật xử lý thông tin.

Khi một model có 7B tham số, nghĩa là nó có khoảng 7 tỷ tham số. 14B là khoảng 14 tỷ tham số. 70B là khoảng 70 tỷ tham số. Số tham số càng lớn, model thường có khả năng lưu giữ và biểu diễn nhiều mẫu ngôn ngữ phức tạp hơn.

Tuy nhiên, nhiều tham số hơn cũng đồng nghĩa với:

Dung lượng model lớn hơn.
Cần nhiều VRAM hoặc RAM hơn.
Tốc độ phản hồi chậm hơn nếu phần cứng không đủ mạnh.
Chi phí vận hành cao hơn.
Khó chạy đồng thời nhiều request hơn.

3. Model 1B đến 3B

Các model 1B đến 3B là nhóm nhỏ, nhẹ, dễ chạy. Chúng có thể chạy trên máy tính cá nhân hoặc máy chủ không quá mạnh. Ưu điểm là tốc độ nhanh, chiếm ít tài nguyên và phù hợp với thử nghiệm hoặc tác vụ đơn giản.

Trong bệnh viện, nhóm này có thể dùng cho:

Phân loại văn bản ngắn.
Gợi ý câu đơn giản.
Tóm tắt nội dung ngắn.
Chatbot nội bộ rất cơ bản.
Tác vụ kỹ thuật nhẹ.
Triển khai trên máy yếu hoặc edge device.

Hạn chế của nhóm này là khả năng lập luận, xử lý văn bản dài, viết văn bản hành chính phức tạp và hiểu ngữ cảnh chuyên sâu thường không tốt bằng model lớn hơn. Nếu bệnh viện cần viết báo cáo dài, phân tích quy trình hoặc trả lời câu hỏi phức tạp, model 1B–3B thường chưa đủ.

4. Model 7B và 8B

Model 7B và 8B là nhóm rất phổ biến trong AI local vì cân bằng tốt giữa chất lượng và tài nguyên. Nhiều model 7B/8B hiện nay có thể xử lý khá tốt các tác vụ viết văn bản, tóm tắt, hỏi đáp, lập dàn ý và hỗ trợ kỹ thuật nếu được prompt tốt.

Trong bệnh viện, nhóm 7B/8B phù hợp với:

Soạn thảo văn bản hành chính.
Tóm tắt tài liệu vừa phải.
Hỏi đáp nội bộ kết hợp RAG.
Viết bảng kiểm.
Gợi ý kế hoạch cải tiến.
Hỗ trợ đào tạo.
Chatbot nội bộ cho phòng ban.
Tác vụ tiếng Việt ở mức khá, tùy model.

Với GPU 16GB VRAM, nhiều model 7B/8B lượng tử hóa có thể chạy tương đối tốt. Đây thường là nhóm nên ưu tiên khi bệnh viện bắt đầu triển khai AI local.

Hạn chế là với các tác vụ rất phức tạp, cần lập luận sâu, xử lý tài liệu dài hoặc yêu cầu chất lượng ngôn ngữ cao, model 7B/8B có thể chưa đạt như model cloud mạnh hoặc model local lớn hơn.

5. Model 14B

Model 14B thường cho chất lượng tốt hơn nhóm 7B/8B, đặc biệt trong lập luận, viết văn bản dài, hiểu ngữ cảnh và xử lý tác vụ phức tạp. Đây là nhóm rất đáng quan tâm nếu bệnh viện có GPU đủ VRAM và muốn nâng chất lượng trả lời.

Trong bệnh viện, model 14B có thể phù hợp với:

Viết bài chuyên sâu.
Phân tích văn bản quản trị.
Soạn kế hoạch và báo cáo dài.
Hỗ trợ quản lý chất lượng.
Hỏi đáp RAG với câu hỏi phức tạp.
Tóm tắt tài liệu dài hơn.
Hỗ trợ lập luận trong phân tích nguyên nhân.

Với GPU 16GB VRAM, một số model 14B lượng tử hóa có thể chạy được, nhưng tốc độ và mức sử dụng tài nguyên cần được kiểm tra thực tế. Nếu cần nhiều người dùng đồng thời, model 14B có thể gây áp lực lớn hơn model 7B/8B.

6. Model 32B

Model 32B thuộc nhóm lớn hơn, có khả năng tốt hơn về lập luận, hiểu ngữ cảnh và tạo văn bản chất lượng cao. Tuy nhiên, nhóm này đòi hỏi phần cứng mạnh hơn đáng kể. Với máy chủ chỉ có một GPU 16GB VRAM, việc chạy mượt model 32B thường khó, trừ khi dùng quantization mạnh và chấp nhận tốc độ thấp hoặc offload sang RAM/CPU.

Trong bệnh viện, model 32B có thể hữu ích cho tác vụ chuyên sâu, nhưng thường phù hợp hơn với máy chủ có GPU VRAM lớn hơn hoặc nhiều GPU. Nếu phần cứng chưa đủ, bệnh viện không nên cố chạy model 32B cho hệ thống dùng thường xuyên.

7. Model 70B

Model 70B là nhóm rất lớn, thường có chất lượng cao hơn đáng kể so với nhóm nhỏ, đặc biệt trong lập luận, viết văn bản phức tạp và xử lý đa dạng tác vụ. Tuy nhiên, yêu cầu phần cứng rất cao. Chạy model 70B local cần nhiều VRAM/RAM và thường không phù hợp với cấu hình phổ thông trong bệnh viện.

Với nhiều bệnh viện, model 70B phù hợp hơn với cloud hoặc hạ tầng GPU chuyên dụng. Nếu triển khai local, cần đánh giá kỹ chi phí, điện năng, làm mát, tốc độ, số người dùng và khả năng vận hành.

Không nên chọn model 70B chỉ vì “mạnh nhất”. Nếu hệ thống quá chậm, người dùng sẽ không sử dụng. Trong triển khai thực tế, model nhỏ hơn nhưng nhanh, ổn định và kết hợp RAG tốt có thể tạo giá trị cao hơn.

8. Số tham số không phải là tất cả

Số tham số chỉ là một yếu tố. Chất lượng model còn phụ thuộc vào:

Dữ liệu huấn luyện.
Phương pháp huấn luyện.
Fine-tuning instruction.
Khả năng tiếng Việt.
Context window.
Kiến trúc model.
Mức quantization.
Prompt.
RAG và chất lượng tài liệu truy xuất.
Tác vụ cụ thể.
Phần mềm inference.
Phần cứng chạy model.

Một model 7B được huấn luyện tốt, phù hợp tiếng Việt và dùng với RAG tốt có thể trả lời quy trình bệnh viện tốt hơn một model 14B không phù hợp. Một model lớn nhưng prompt kém và truy xuất sai tài liệu vẫn có thể trả lời sai.

9. Gợi ý lựa chọn theo bối cảnh bệnh viện

Với giai đoạn thử nghiệm, bệnh viện có thể bắt đầu với model 7B/8B để đánh giá quy trình vận hành. Đây là nhóm cân bằng tốt.

Nếu cần chất lượng cao hơn cho văn bản dài và máy chủ đáp ứng, có thể thử model 14B. Nên benchmark bằng chính các tác vụ bệnh viện như viết kế hoạch, tóm tắt quy trình, trả lời câu hỏi RAG, tạo bảng kiểm.

Model 1B–3B có thể dùng cho tác vụ nhẹ hoặc phụ trợ, nhưng không nên là model chính cho chatbot nội bộ toàn bệnh viện.

Model 32B/70B nên xem là lựa chọn nâng cao, chỉ triển khai khi có phần cứng mạnh và nhu cầu rõ.

10. Kết luận

Các ký hiệu 1B, 3B, 7B, 8B, 14B, 32B, 70B cho biết quy mô tham số của model. Model lớn thường mạnh hơn nhưng cần nhiều tài nguyên hơn. Trong bệnh viện, lựa chọn model phải cân bằng giữa chất lượng, tốc độ, phần cứng, tác vụ và khả năng vận hành.

Đối với AI local bệnh viện, model phù hợp nhất không phải là model lớn nhất, mà là model đáp ứng tốt nhu cầu thực tế, chạy ổn định trên phần cứng hiện có, hỗ trợ tiếng Việt đủ tốt, kết hợp được với RAG và có thể phục vụ người dùng với tốc độ chấp nhận được.

Đăng nhập để gửi ý kiến