Chương 11. RAG với Ollama và FAISS cho tài liệu bệnh viện

Giới thiệu chương

Nếu chỉ cài Ollama và chạy một model ngôn ngữ lớn, bệnh viện mới có một hệ thống AI có khả năng sinh văn bản, trả lời câu hỏi chung, viết nháp kế hoạch, tóm tắt đoạn văn do người dùng cung cấp hoặc hỗ trợ một số tác vụ hành chính. Nhưng như vậy vẫn chưa đủ để AI trở thành “trợ lý tri thức bệnh viện”. Lý do rất đơn giản: model AI local không tự biết kho quy trình, quy định, phác đồ, hướng dẫn, biểu mẫu, kế hoạch, báo cáo và văn bản nội bộ mới nhất của bệnh viện.

Một model dù mạnh vẫn có giới hạn. Nó có thể biết kiến thức chung được học trong quá trình huấn luyện, nhưng không biết tài liệu nội bộ riêng của bệnh viện nếu tài liệu đó không được cung cấp. Nó cũng không biết văn bản nào đang còn hiệu lực, biểu mẫu nào là bản mới nhất, quy trình nào được giám đốc bệnh viện ký ban hành, khoa phòng nào áp dụng văn bản nào. Nếu hỏi trực tiếp model: “Quy trình báo cáo sự cố y khoa của bệnh viện tôi gồm mấy bước?”, model có thể trả lời rất trôi chảy nhưng không có căn cứ, vì nó không thực sự biết quy trình cụ thể của bệnh viện.

Đây là lý do bệnh viện cần RAG.

RAG là viết tắt của Retrieval-Augmented Generation, có thể hiểu là sinh câu trả lời có tăng cường truy xuất tài liệu. Thay vì để model tự trả lời từ trí nhớ tổng quát, hệ thống sẽ tìm các tài liệu liên quan trong kho tri thức nội bộ, đưa các đoạn tài liệu phù hợp vào prompt, rồi yêu cầu model trả lời dựa trên các đoạn tài liệu đó. Khi triển khai tốt, RAG giúp chatbot trả lời có căn cứ hơn, bám tài liệu hơn, ít bịa hơn và có thể hiển thị nguồn cho người dùng kiểm tra.

Trong hệ thống AI local của bệnh viện, Ollama có thể đóng vai trò chạy model sinh câu trả lời. FAISS có thể đóng vai trò lưu và tìm kiếm vector embedding của tài liệu. Embedding model chuyển văn bản thành vector để máy tính tìm kiếm theo ý nghĩa, không chỉ theo từ khóa. API trung gian điều phối toàn bộ quy trình: nhận câu hỏi, kiểm tra quyền, tạo embedding, tìm tài liệu bằng FAISS, lọc tài liệu theo quyền và hiệu lực, tạo prompt, gọi Ollama, nhận câu trả lời, hiển thị nguồn và ghi log.

RAG đặc biệt phù hợp với bệnh viện vì bệnh viện là môi trường có rất nhiều tri thức dạng văn bản. Các tài liệu này có giá trị thực tiễn cao nhưng thường phân tán, khó tìm, nhiều phiên bản, nhiều biểu mẫu, nhiều phòng ban phụ trách. Nếu chỉ lưu tài liệu trong thư mục hoặc website nội bộ, nhân viên vẫn phải biết tên tài liệu để tìm. RAG cho phép hỏi bằng ngôn ngữ tự nhiên: “Khi người bệnh té ngã thì khoa cần làm gì?”, “Biểu mẫu báo cáo sự cố nằm ở đâu?”, “Quy trình bàn giao người bệnh giữa hai ca trực gồm những nội dung nào?”, “Tiêu chí nào liên quan đến kiểm soát nhiễm khuẩn?”, “Cần chuẩn bị gì trước khi đánh giá 5S tại khoa lâm sàng?”.

Tuy nhiên, RAG không phải phép màu. Nếu tài liệu đầu vào lộn xộn, bản cũ bản mới lẫn nhau, file scan không đọc được, tiêu đề không rõ, metadata thiếu, quyền truy cập không được quản lý, chunk chia sai, embedding model không hiểu tiếng Việt, FAISS tìm sai tài liệu, prompt thiết kế kém, thì câu trả lời vẫn có thể sai. RAG chỉ tốt khi toàn bộ chuỗi xử lý dữ liệu được thiết kế tốt.

Chương này trình bày kỹ toàn bộ quá trình xây dựng RAG với Ollama và FAISS cho tài liệu bệnh viện. Nội dung gồm: RAG là gì, vì sao bệnh viện cần RAG, kiến trúc tổng thể, chuẩn bị tài liệu, làm sạch và chuẩn hóa dữ liệu, chia chunk, tạo embedding, lưu vector bằng FAISS, truy xuất tài liệu liên quan, đưa tài liệu vào prompt cho Ollama, sinh câu trả lời có căn cứ, hiển thị nguồn trích dẫn, kiểm soát hallucination, đánh giá chất lượng câu trả lời và cập nhật chỉ mục khi tài liệu thay đổi.

Sau chương này, người đọc cần hiểu rằng RAG không chỉ là một kỹ thuật AI, mà là một phương pháp tổ chức tri thức bệnh viện. Muốn AI local có ích thật sự, bệnh viện phải quản lý tốt tài liệu, metadata, phân quyền, phiên bản, nguồn trích dẫn và vòng đời cập nhật. Nói cách khác, RAG thành công không chỉ nhờ model mạnh, mà nhờ bệnh viện có một kho tri thức được tổ chức tốt.

Đăng nhập để gửi ý kiến

Chương 11. RAG với Ollama và FAISS cho tài liệu bệnh viện

Giới thiệu chương

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

Câu hỏi, thảo luận