Bài 8. Inference, fine-tuning và RAG

1. Đặt vấn đề

Khi triển khai AI local, ba khái niệm thường gây nhầm lẫn là inference, fine-tuning và RAG. Nhiều người dùng nghĩ rằng muốn AI trả lời theo tài liệu bệnh viện thì phải “huấn luyện lại model”. Một số người khác lại chỉ dùng model nguyên bản và kỳ vọng nó biết toàn bộ quy trình nội bộ. Cả hai cách hiểu đều chưa chính xác.

Trong thực tế, mỗi khái niệm có vai trò khác nhau. Inference là quá trình dùng model để sinh câu trả lời. Fine-tuning là quá trình huấn luyện bổ sung để điều chỉnh hành vi hoặc năng lực model. RAG là kỹ thuật truy xuất tài liệu liên quan rồi đưa vào prompt để model trả lời dựa trên nguồn đó.

Đối với bệnh viện, hiểu sự khác nhau giữa ba khái niệm này rất quan trọng. Trong đa số trường hợp ban đầu, bệnh viện nên ưu tiên inference kết hợp RAG, chưa nên vội fine-tuning trên dữ liệu nội bộ nhạy cảm.

2. Inference là gì?

Inference là quá trình sử dụng model đã huấn luyện để tạo ra kết quả từ đầu vào. Khi người dùng hỏi một câu và model trả lời, đó là inference. Khi model tóm tắt tài liệu, viết kế hoạch, phân loại phản ánh hoặc tạo bảng kiểm, đó cũng là inference.

Inference không làm thay đổi trọng số model. Nghĩa là sau khi trả lời, model không tự học thêm từ câu hỏi đó. Nếu hôm nay người dùng cung cấp một quy trình mới trong prompt, model có thể dùng nó để trả lời trong phiên đó, nhưng model không tự ghi nhớ quy trình đó cho lần sau nếu hệ thống không có cơ chế lưu trữ riêng.

Trong Ollama, khi chạy một model và hỏi đáp, phần lớn hoạt động là inference.

3. Fine-tuning là gì?

Fine-tuning là quá trình huấn luyện bổ sung một model đã có trên một tập dữ liệu mới để điều chỉnh hành vi hoặc cải thiện năng lực cho một tác vụ cụ thể. Ví dụ, có thể fine-tune model để trả lời theo phong cách hành chính, phân loại văn bản, trích xuất thông tin hoặc tuân theo một định dạng đầu ra nhất định.

Fine-tuning có thể hữu ích, nhưng không phải là giải pháp đầu tiên cho mọi vấn đề. Fine-tuning cần:

Dữ liệu huấn luyện chất lượng.
Mục tiêu rõ ràng.
Định dạng dữ liệu chuẩn.
Hạ tầng tính toán.
Kỹ năng kỹ thuật.
Bộ đánh giá trước và sau fine-tuning.
Kiểm soát rủi ro ghi nhớ dữ liệu nhạy cảm.

Trong bệnh viện, fine-tuning trên dữ liệu thật cần rất thận trọng. Nếu dữ liệu chứa thông tin người bệnh hoặc tài liệu nhạy cảm, có nguy cơ model học và tái hiện thông tin không mong muốn. Vì vậy, không nên fine-tune bằng dữ liệu bệnh án định danh nếu chưa có quy trình pháp lý, bảo mật và đánh giá nghiêm ngặt.

4. RAG là gì?

RAG, viết tắt của Retrieval-Augmented Generation, là kỹ thuật kết hợp truy xuất thông tin và sinh văn bản. Khi người dùng đặt câu hỏi, hệ thống không chỉ dựa vào kiến thức sẵn có của model. Nó sẽ tìm các đoạn tài liệu liên quan trong kho dữ liệu, đưa các đoạn đó vào prompt, rồi yêu cầu model trả lời dựa trên nội dung được cung cấp.

Trong bệnh viện, RAG rất phù hợp vì tài liệu nội bộ thay đổi thường xuyên và cần câu trả lời có căn cứ. Thay vì huấn luyện lại model mỗi khi có quy trình mới, bệnh viện chỉ cần cập nhật kho tài liệu và chỉ mục vector.

Ví dụ, người dùng hỏi: “Quy trình xử lý phản ánh người bệnh gồm những bước nào?” Hệ thống RAG sẽ tìm tài liệu quy trình liên quan, đưa đoạn phù hợp vào prompt và yêu cầu LLM trả lời theo nguồn. Nếu có cập nhật quy trình, chỉ cần cập nhật tài liệu trong kho.

5. So sánh inference, fine-tuning và RAG

Có thể hiểu đơn giản:

Inference là dùng model để trả lời.
Fine-tuning là điều chỉnh model bằng huấn luyện bổ sung.
RAG là cung cấp tài liệu liên quan cho model trong lúc trả lời.

Inference là hoạt động cơ bản nhất. RAG là cách bổ sung tri thức động mà không thay đổi trọng số model. Fine-tuning là cách thay đổi model, phức tạp hơn và rủi ro hơn.

Trong bệnh viện, nếu mục tiêu là trả lời theo quy trình, quy định, biểu mẫu, hướng dẫn hoặc tài liệu nội bộ, RAG thường phù hợp hơn fine-tuning. Nếu mục tiêu là thay đổi phong cách trả lời, định dạng đầu ra hoặc huấn luyện model cho một tác vụ phân loại hẹp, fine-tuning có thể được cân nhắc sau.

6. Vì sao bệnh viện nên ưu tiên RAG?

RAG có nhiều ưu điểm trong bệnh viện.

Thứ nhất, dễ cập nhật. Khi tài liệu thay đổi, chỉ cần cập nhật kho tài liệu và chỉ mục. Không cần huấn luyện lại model.

Thứ hai, có thể trích dẫn nguồn. Người dùng biết câu trả lời dựa trên văn bản nào.

Thứ ba, giảm hallucination nếu truy xuất đúng tài liệu và prompt được thiết kế tốt.

Thứ tư, phù hợp với dữ liệu nội bộ. Bệnh viện có thể kiểm soát tài liệu nào được đưa vào.

Thứ năm, ít rủi ro hơn fine-tuning trên dữ liệu nhạy cảm, vì model không nhất thiết ghi nhớ dữ liệu trong trọng số.

Thứ sáu, phù hợp với nhiều nhóm ứng dụng: tra cứu quy trình, hỏi đáp biểu mẫu, hỗ trợ quản lý chất lượng, đào tạo và chuẩn hóa SOP.

7. Khi nào fine-tuning có thể cần thiết?

Fine-tuning có thể hữu ích trong một số trường hợp:

Model cần trả lời theo một định dạng rất ổn định.
Cần phân loại văn bản theo nhãn nội bộ.
Cần trích xuất trường thông tin theo mẫu.
Cần phong cách viết đặc thù.
Cần cải thiện một tác vụ hẹp có nhiều dữ liệu mẫu.
Cần giảm độ dài prompt cho tác vụ lặp lại.

Tuy nhiên, trước khi fine-tuning, bệnh viện nên tự hỏi:

RAG có giải quyết được không?
Prompt engineering có giải quyết được không?
Có đủ dữ liệu huấn luyện sạch không?
Dữ liệu có nhạy cảm không?
Có bộ đánh giá chất lượng không?
Có rủi ro model ghi nhớ dữ liệu không?
Có nhân sự đủ năng lực duy trì không?

Nếu chưa trả lời được các câu hỏi này, chưa nên fine-tuning.

8. Sai lầm thường gặp

Sai lầm thứ nhất là nghĩ rằng “muốn AI biết tài liệu bệnh viện thì phải fine-tune”. Thực tế, RAG thường phù hợp hơn.

Sai lầm thứ hai là chỉ dùng inference với model nguyên bản rồi kỳ vọng model trả lời đúng quy trình nội bộ. Model không tự biết tài liệu riêng nếu không được cung cấp.

Sai lầm thứ ba là fine-tune bằng dữ liệu không sạch. Nếu dữ liệu lỗi, mâu thuẫn, cũ hoặc chứa thông tin nhạy cảm, model có thể học sai.

Sai lầm thứ tư là không đánh giá sau fine-tuning. Một model fine-tune có thể tốt hơn ở tác vụ này nhưng kém hơn ở tác vụ khác.

Sai lầm thứ năm là dùng RAG nhưng truy xuất tài liệu kém. RAG chỉ tốt khi kho tài liệu, chunking, embedding và truy xuất được thiết kế đúng.

9. Kết luận

Inference, fine-tuning và RAG là ba khái niệm nền tảng trong triển khai AI local. Inference là dùng model để trả lời; fine-tuning là huấn luyện bổ sung model; RAG là truy xuất tài liệu liên quan để model trả lời có căn cứ.

Đối với bệnh viện, chiến lược thực tế nhất thường là bắt đầu với inference cho tác vụ đơn giản, sau đó xây dựng RAG cho kho tài liệu nội bộ. Fine-tuning chỉ nên thực hiện khi có mục tiêu rõ, dữ liệu sạch, năng lực kỹ thuật và quy trình đánh giá đầy đủ. Trong giai đoạn đầu, RAG là hướng an toàn và hiệu quả hơn để đưa tri thức bệnh viện vào AI local.

Đăng nhập để gửi ý kiến