Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "HI.AI Members" các nội dung bạn quan tâm.

Chương 9. Sử dụng Ollama qua API trong hệ thống bệnh viện

Giới thiệu chương

Sau khi bệnh viện đã cài đặt Ollama, lựa chọn model, làm việc với model và tùy biến model bằng Modelfile, bước tiếp theo là đưa năng lực AI local vào các hệ thống sử dụng thực tế. Người dùng cuối không nên phải SSH vào máy chủ rồi chạy ollama run. Nhân viên bệnh viện cần sử dụng AI qua website nội bộ, chatbot, Drupal, hệ thống quản lý chất lượng, công cụ soạn thảo văn bản, dashboard hoặc các phần mềm nghiệp vụ có giao diện thân thiện.

Để làm được điều đó, cần sử dụng Ollama API. API là cầu nối giữa model AI local và các ứng dụng khác. Thay vì người dùng nhập câu hỏi trực tiếp trong terminal, ứng dụng sẽ gửi request đến Ollama API, nhận response và hiển thị kết quả cho người dùng. Nhờ API, Ollama có thể trở thành một dịch vụ AI nội bộ trong bệnh viện.

Tuy nhiên, trong môi trường bệnh viện, không nên hiểu đơn giản là “mở API Ollama cho mọi ứng dụng gọi trực tiếp”. API của Ollama rất hữu ích, nhưng nếu mở không kiểm soát, hệ thống có thể gặp rủi ro: người dùng không được xác thực vẫn gọi được model, dữ liệu nhạy cảm bị gửi vào prompt, không có log truy vết, không phân quyền tài liệu, không kiểm soát tốc độ, không giới hạn tác vụ, không biết ai hỏi gì, không biết model trả lời ra sao.

Vì vậy, chương này không chỉ giới thiệu cách gọi Ollama API, mà còn nhấn mạnh kiến trúc tích hợp an toàn trong bệnh viện. Cách tiếp cận khuyến nghị là: người dùng hoặc ứng dụng không gọi trực tiếp Ollama, mà đi qua một API trung gian. API trung gian chịu trách nhiệm xác thực, phân quyền, kiểm tra dữ liệu đầu vào, gọi RAG nếu cần, ghi log, kiểm soát prompt, giới hạn tốc độ, chọn model phù hợp, gọi Ollama, kiểm soát đầu ra và trả kết quả cho ứng dụng.

Chương 9 gồm 12 bài. Các bài đầu trình bày tổng quan Ollama API, API sinh văn bản, API hội thoại dạng chat, streaming response và API tạo embedding. Các bài tiếp theo trình bày cách tích hợp Ollama với Python, PHP, Drupal, website nội bộ bệnh viện, hệ thống QMS và các hệ thống nghiệp vụ như HIS, EMR, LIS, PACS. Bài cuối cùng tập trung vào thiết kế API trung gian để kiểm soát truy cập và ghi log.

Mục tiêu của chương này là giúp bệnh viện chuyển từ “có model chạy được” sang “có dịch vụ AI có thể tích hợp, quản trị và kiểm soát”. Đây là bước rất quan trọng nếu muốn AI local trở thành một phần của hạ tầng số bệnh viện, thay vì chỉ là công cụ thử nghiệm của phòng Công nghệ thông tin.