Chương 2. Nền tảng kỹ thuật cần biết về AI local

Giới thiệu chương

Sau khi đã hiểu tổng quan về AI local trong bệnh viện, bước tiếp theo là nắm được các khái niệm kỹ thuật nền tảng. Đây là điều rất quan trọng, bởi nếu không hiểu các khái niệm cơ bản như mô hình ngôn ngữ lớn, model local, token, context window, quantization, embedding, vector database, inference, fine-tuning và RAG, bệnh viện rất dễ triển khai AI theo cách cảm tính: chọn model theo tên gọi, chọn phần cứng theo quảng cáo, đánh giá chất lượng theo cảm giác hoặc kỳ vọng AI làm được những việc vượt quá khả năng thực tế.

Chương 2 không nhằm biến người đọc thành kỹ sư AI chuyên sâu. Mục tiêu của chương này là cung cấp một nền tảng kỹ thuật đủ vững để lãnh đạo bệnh viện, phòng Công nghệ thông tin, phòng Quản lý chất lượng, nhóm chuyển đổi số và các phòng ban liên quan có thể hiểu đúng cách AI local vận hành. Khi hiểu đúng nền tảng, bệnh viện sẽ biết vì sao cùng một câu hỏi nhưng model này trả lời tốt hơn model kia; vì sao một model lớn chưa chắc phù hợp với máy chủ hiện có; vì sao GPU quan trọng nhưng RAM và SSD cũng không thể xem nhẹ; vì sao không nên đưa toàn bộ tài liệu bệnh viện vào prompt; vì sao RAG thường phù hợp hơn fine-tuning trong giai đoạn đầu; và vì sao FAISS có vai trò quan trọng trong tra cứu tài liệu nội bộ.

Trong môi trường bệnh viện, kỹ thuật không thể tách rời quản trị. Một quyết định kỹ thuật sai có thể dẫn đến hệ thống chậm, tốn tài nguyên, khó bảo trì, không bảo mật hoặc trả lời thiếu căn cứ. Ngược lại, hiểu đúng kỹ thuật giúp bệnh viện thiết kế hệ thống AI local thực tế hơn: chọn model vừa sức phần cứng, phân loại tác vụ rõ ràng, dùng embedding để tìm kiếm tài liệu, dùng RAG để giảm hallucination, dùng vector database để quản lý kho tri thức, và dùng GPU/RAM/SSD đúng vai trò.

Chương này sẽ lần lượt trình bày mười nội dung nền tảng. Trước hết là khái niệm mô hình ngôn ngữ lớn và model AI local. Sau đó là các nhóm model thường dùng trong hệ thống AI bệnh viện: LLM, embedding model, reranker và vision model. Tiếp theo là các yếu tố kỹ thuật ảnh hưởng trực tiếp đến triển khai: tham số mô hình, token, context window, quantization, CPU, GPU, RAM, VRAM và tốc độ sinh token. Phần cuối của chương đi vào ba khái niệm đặc biệt quan trọng đối với bệnh viện: inference, fine-tuning, RAG; embedding model; và vector database/FAISS.

Sau khi hoàn thành chương này, người đọc cần đạt được ba năng lực cơ bản.

Thứ nhất, hiểu được AI local không chỉ là “cài một chatbot”, mà là sự phối hợp của nhiều thành phần kỹ thuật: model sinh văn bản, model tạo embedding, kho vector, cơ chế truy xuất, API, phần cứng và dữ liệu.

Thứ hai, biết đánh giá sơ bộ một cấu hình AI local có phù hợp với nhu cầu bệnh viện hay không. Ví dụ, một máy chủ có GPU 16GB VRAM có thể chạy tốt nhóm model nào, nên ưu tiên tác vụ nào, cần lưu ý gì khi chạy đồng thời nhiều người dùng.

Thứ ba, hiểu vì sao RAG và FAISS là hướng triển khai rất quan trọng trong bệnh viện. Bệnh viện không chỉ cần AI “nói hay”, mà cần AI trả lời dựa trên tài liệu đúng, phiên bản đúng, quy trình đúng và có thể kiểm tra nguồn.

Đăng nhập để gửi ý kiến

Chương 2. Nền tảng kỹ thuật cần biết về AI local

Giới thiệu chương

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

Câu hỏi, thảo luận