Chương 18. Tối ưu hiệu năng Ollama trong bệnh viện

Giới thiệu chương

Sau khi bệnh viện đã triển khai AI local, cài đặt Ollama, lựa chọn model, xây dựng chatbot, RAG và các ứng dụng theo từng phòng/khoa, vấn đề tiếp theo sẽ xuất hiện rất nhanh: hiệu năng. Hệ thống có trả lời nhanh không? Một câu hỏi mất 3 giây, 10 giây hay 60 giây? Khi nhiều người dùng cùng lúc thì có bị nghẽn không? Model nào vừa đủ tốt nhưng vẫn chạy nhanh trên phần cứng hiện có? Khi nào dùng GPU, khi nào dùng CPU? Có nên dùng model lớn hơn không? Context dài có làm chậm không? RAG có làm tăng thời gian phản hồi không? Làm sao biết hệ thống đang nghẽn ở GPU, RAM, CPU, ổ cứng hay thiết kế ứng dụng?

Trong môi trường bệnh viện, hiệu năng không chỉ là vấn đề kỹ thuật. Nó ảnh hưởng trực tiếp đến khả năng chấp nhận của người dùng. Một chatbot nội bộ nếu trả lời quá chậm sẽ bị bỏ qua. Một trợ lý tra cứu quy trình nếu mất quá lâu sẽ không phù hợp tại khoa khám bệnh hoặc phòng chức năng đang xử lý công việc gấp. Một hệ thống RAG nếu truy xuất tốt nhưng sinh câu trả lời chậm có thể khiến nhân viên quay lại cách hỏi miệng hoặc tìm file thủ công. Ngược lại, nếu chỉ tối ưu tốc độ mà dùng model quá yếu, câu trả lời sai hoặc kém hữu ích, hệ thống cũng không có giá trị.

Tối ưu hiệu năng Ollama trong bệnh viện vì vậy phải cân bằng ba yếu tố: tốc độ, độ chính xác và mức độ hữu ích trong công việc thực tế. Không phải model lớn nhất luôn tốt nhất. Không phải context càng dài càng tốt. Không phải mọi tác vụ đều cần model mạnh. Một câu hỏi tra cứu biểu mẫu có thể dùng model nhỏ hoặc RAG chính xác. Một tác vụ viết đề án dài cần model mạnh hơn và context lớn hơn. Một tác vụ embedding cho FAISS lại cần embedding model riêng, không phải model chat. Một tác vụ batch xử lý tài liệu có thể chạy nền, không cần phản hồi ngay lập tức.

Với cấu hình máy chủ AI local của bệnh viện, đặc biệt nếu có GPU như RTX 5060 Ti 16GB, RAM lớn và Ubuntu Server, có thể triển khai nhiều mức tối ưu. GPU nên ưu tiên cho các tác vụ sinh câu trả lời cần tốc độ. CPU và RAM lớn có thể dùng tốt cho FAISS, xử lý tài liệu, embedding batch nhẹ, indexing, tiền xử lý văn bản và một số model nhỏ. HDD dung lượng lớn phù hợp lưu tài liệu, backup, index, log, nhưng các tác vụ cần tốc độ cao nên ưu tiên SSD/NVMe. UPS giúp hệ thống an toàn hơn khi chạy dịch vụ AI và xử lý dữ liệu dài.

Chương này trình bày các nội dung thực hành để tối ưu Ollama trong bệnh viện: các yếu tố ảnh hưởng tốc độ phản hồi; chọn model theo VRAM và RAM; khi nào chạy CPU, khi nào chạy GPU; tối ưu context window; tối ưu prompt cho từng tác vụ; tối ưu số lượng người dùng đồng thời; quản lý hàng đợi request; theo dõi tài nguyên bằng nvidia-smi, htop, nvtop; benchmark model trên máy chủ thực tế; và cuối cùng là đánh giá tổng hợp giữa tốc độ, độ chính xác và mức độ hữu ích.

Mục tiêu của chương không phải là chạy điểm benchmark cho đẹp, mà là giúp bệnh viện xây dựng một hệ thống AI local đủ nhanh để dùng được, đủ chính xác để tin được, đủ ổn định để vận hành được và đủ linh hoạt để mở rộng theo nhu cầu thực tế.

Đăng nhập để gửi ý kiến

Chương 18. Tối ưu hiệu năng Ollama trong bệnh viện

Giới thiệu chương

Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Thúy Hường

Câu hỏi, thảo luận