Bài 1. Ollama là gì?

1. Đặt vấn đề

Khi bệnh viện bắt đầu triển khai AI local, một trong những câu hỏi đầu tiên là: làm thế nào để chạy được model AI trên máy chủ nội bộ? Về mặt lý thuyết, có thể tải các file model về, dùng các thư viện inference, cấu hình tham số, viết script gọi model và xây dựng API. Tuy nhiên, cách làm này tương đối phức tạp đối với một bệnh viện mới bắt đầu.

Ollama xuất hiện như một công cụ giúp đơn giản hóa quá trình đó. Với Ollama, việc tải, chạy và quản lý model local trở nên dễ tiếp cận hơn nhiều. Người quản trị có thể dùng các câu lệnh tương đối đơn giản để tải model, chạy model và kiểm tra phản hồi. Các ứng dụng khác có thể gọi Ollama qua API để tích hợp vào chatbot, website hoặc phần mềm nội bộ.

Đối với bệnh viện, Ollama có thể được xem là bước khởi đầu thực tế để đưa AI local từ ý tưởng sang thử nghiệm. Tuy nhiên, cần hiểu đúng: Ollama không phải là trí tuệ nhân tạo theo nghĩa model, cũng không phải là chatbot hoàn chỉnh, cũng không phải hệ thống RAG đầy đủ. Ollama là công cụ vận hành model.

2. Định nghĩa Ollama

Ollama là một công cụ cho phép người dùng tải, quản lý và chạy các model AI local, đặc biệt là các mô hình ngôn ngữ lớn, trên máy tính hoặc máy chủ của mình. Ollama cung cấp giao diện dòng lệnh và API để tương tác với model.

Có thể hiểu ngắn gọn:

Ollama là lớp phần mềm giúp vận hành model AI local trên hạ tầng do người dùng kiểm soát.

Trong bệnh viện, Ollama có thể được cài trên máy chủ Ubuntu Server. Sau đó, bệnh viện có thể tải các model như Llama, Qwen, Mistral, Gemma, Phi hoặc các model khác tùy nhu cầu. Người dùng hoặc ứng dụng nội bộ có thể gửi câu hỏi đến model thông qua Ollama và nhận câu trả lời.

3. Ollama nằm ở đâu trong kiến trúc AI local?

Trong kiến trúc tổng thể hệ thống AI local bệnh viện, Ollama nằm ở lớp vận hành model. Nó đứng giữa model AI và các ứng dụng sử dụng model.

Có thể hình dung luồng đơn giản như sau:

Người dùng → Giao diện chatbot hoặc website → API trung gian → Ollama → Model AI → Ollama → API trung gian → Người dùng.

Trong luồng này, Ollama không trực tiếp quyết định phân quyền, không tự động truy xuất tài liệu nội bộ, không tự kiểm duyệt đầy đủ câu trả lời. Các chức năng đó nên được xử lý ở lớp API trung gian, lớp RAG, lớp bảo mật và lớp ứng dụng.

Ollama chịu trách nhiệm chính là nhận yêu cầu, chạy model và trả kết quả.

4. Ollama khác gì model AI?

Một nhầm lẫn phổ biến là gọi Ollama là “model”. Cách gọi này không chính xác. Ollama là công cụ chạy model. Model là thành phần trí tuệ nhân tạo được huấn luyện sẵn.

Ví dụ:

qwen2.5:14b là model.
gemma3:4b là model.
llama3.1:8b là model.
Ollama là công cụ dùng để tải và chạy các model đó.

Nếu không có model, Ollama không thể trả lời câu hỏi. Nếu có model nhưng không có công cụ vận hành, người dùng cũng khó sử dụng model. Vì vậy, Ollama và model là hai thành phần khác nhau nhưng phối hợp chặt chẽ.

5. Ollama khác gì chatbot?

Ollama cũng không phải là chatbot hoàn chỉnh theo nghĩa ứng dụng người dùng cuối. Ollama có thể cho phép người quản trị chat với model qua dòng lệnh, nhưng để triển khai cho nhân viên bệnh viện, cần có giao diện phù hợp hơn: web chatbot, trang nội bộ, tích hợp Drupal hoặc module phần mềm.

Một chatbot hoàn chỉnh thường cần:

Giao diện người dùng.
Quản lý tài khoản.
Lưu lịch sử hội thoại nếu được phép.
Phân quyền.
Kết nối RAG.
Hiển thị nguồn tài liệu.
Ghi log.
Đánh giá câu trả lời.
Cảnh báo dữ liệu nhạy cảm.
Kết nối Ollama để sinh câu trả lời.

Như vậy, Ollama là động cơ phía sau chatbot, không phải toàn bộ chatbot.

6. Ollama có thể làm gì?

Với Ollama, bệnh viện có thể thực hiện nhiều việc:

Tải model AI local.
Chạy model để hỏi đáp.
Kiểm tra khả năng tiếng Việt của model.
So sánh các model khác nhau.
Tạo model tùy biến bằng Modelfile.
Thiết lập system prompt cho trợ lý bệnh viện.
Gọi model qua API.
Tích hợp model với Python, PHP, Drupal hoặc website nội bộ.
Dùng model trong hệ thống RAG.
Tạo embedding nếu model hỗ trợ embedding.
Quản lý danh sách model đã cài đặt.

Đây là những chức năng rất phù hợp cho giai đoạn bệnh viện bắt đầu xây dựng năng lực AI local.

7. Ollama không tự làm những gì?

Ollama không tự động giải quyết toàn bộ các vấn đề sau:

Không tự phân quyền người dùng bệnh viện.
Không tự bảo vệ dữ liệu y tế.
Không tự ẩn danh dữ liệu.
Không tự xây dựng kho tài liệu RAG.
Không tự kiểm tra tài liệu còn hiệu lực.
Không tự đánh giá câu trả lời đúng hay sai.
Không tự tích hợp vào HIS, EMR, LIS, PACS.
Không tự tạo giao diện chatbot hoàn chỉnh.
Không tự hiểu quy trình riêng của bệnh viện nếu không được cung cấp tài liệu.
Không tự thay thế nhân viên y tế hoặc chuyên viên quản lý chất lượng.

Điều này rất quan trọng. Ollama là một thành phần kỹ thuật mạnh nhưng cần được đặt trong một hệ thống quản trị đầy đủ.

8. Vì sao Ollama dễ tiếp cận?

Ollama dễ tiếp cận vì nó đơn giản hóa nhiều bước kỹ thuật. Người dùng không cần tự tải file model thủ công, không cần viết nhiều script ban đầu, không cần cấu hình phức tạp để thử nghiệm model. Một số câu lệnh cơ bản đã đủ để bắt đầu.

Ví dụ, về mặt khái niệm:

ollama pull dùng để tải model.
ollama run dùng để chạy model.
ollama list dùng để xem model đã có.
ollama rm dùng để xóa model.
ollama serve dùng để chạy dịch vụ API.

Chính sự đơn giản này giúp Ollama phù hợp với bệnh viện trong giai đoạn đầu, khi mục tiêu là nhanh chóng thử nghiệm, đánh giá và xây dựng hiểu biết nội bộ.

9. Ollama trong bệnh viện nên được dùng như thế nào?

Trong bệnh viện, Ollama nên được dùng theo lộ trình.

Giai đoạn đầu, dùng Ollama để thử model, đánh giá tiếng Việt, kiểm tra tốc độ trên máy chủ, kiểm tra khả năng viết văn bản hành chính, tóm tắt, hỏi đáp và hỗ trợ quản lý chất lượng.

Giai đoạn tiếp theo, dùng Ollama qua API để tích hợp với chatbot nội bộ hoặc website thử nghiệm.

Giai đoạn sau, kết hợp Ollama với RAG, FAISS, API trung gian, phân quyền và kho tài liệu nội bộ.

Giai đoạn triển khai chính thức, Ollama nên được bảo vệ phía sau reverse proxy hoặc API trung gian, có log, phân quyền, quy chế sử dụng và đánh giá chất lượng.

10. Kết luận

Ollama là công cụ giúp tải, quản lý và chạy model AI local trên hạ tầng do bệnh viện kiểm soát. Đây là một thành phần rất phù hợp để bệnh viện bắt đầu triển khai AI local vì dễ sử dụng, dễ thử nghiệm và có API thuận tiện cho tích hợp.

Tuy nhiên, Ollama không phải toàn bộ hệ thống AI bệnh viện. Ollama không thay thế bảo mật, RAG, phân quyền, dữ liệu nội bộ, giao diện người dùng hay quy chế sử dụng. Để phát huy giá trị, Ollama cần được đặt trong kiến trúc tổng thể của bệnh viện, kết hợp với dữ liệu, bảo mật, tích hợp và đánh giá chất lượng.

Đăng nhập để gửi ý kiến