Bài 2. Giai đoạn 2: Cài đặt Ollama và chạy thử model

1. Đặt vấn đề

Sau khi đã thống nhất mục tiêu và chuẩn bị hạ tầng, bệnh viện có thể bước sang giai đoạn cài đặt Ollama và chạy thử model. Đây là giai đoạn kỹ thuật đầu tiên, nhằm kiểm tra máy chủ AI local có thể chạy model ổn định không, GPU có được nhận không, tốc độ phản hồi có phù hợp không và model nào thích hợp cho tiếng Việt bệnh viện.

Giai đoạn này chưa nên xây hệ thống phức tạp. Mục tiêu là chạy được, đo được và hiểu được giới hạn phần cứng.

2. Mục tiêu của giai đoạn 2

Mục tiêu gồm:

Cài Ollama trên Ubuntu Server.
Kiểm tra NVIDIA driver và GPU.
Tải một số model thử nghiệm.
Chạy câu hỏi tiếng Việt.
Kiểm tra model dùng CPU hay GPU.
Đo tốc độ phản hồi.
Kiểm tra VRAM/RAM/CPU.
Chọn model ứng viên cho giai đoạn chatbot.
Ghi lại cấu hình và kết quả.

3. Kiểm tra hệ thống trước khi cài

Cần kiểm tra:

lsb_release -a
nvidia-smi
free -h
df -h
lscpu

Cần xác nhận:

Ubuntu Server hoạt động ổn định.
GPU được nhận.
Driver NVIDIA đúng.
RAM đủ.
Ổ cứng đủ dung lượng.
Network hoạt động.
UPS ổn định.

Nếu nvidia-smi không nhận GPU, cần xử lý driver trước khi benchmark model.

4. Cài đặt Ollama

Sau khi cài Ollama, cần kiểm tra service:

systemctl status ollama

Kiểm tra API nội bộ:

curl http://127.0.0.1:11434/api/tags

Nếu API trả về danh sách model hoặc cấu trúc JSON hợp lệ, Ollama đã hoạt động.

5. Tải model thử nghiệm

Nên tải một vài model đại diện:

Một model nhỏ/nhanh.
Một model trung bình.
Một model mạnh hơn nếu phần cứng cho phép.
Một embedding model nếu chuẩn bị RAG.

Không nên tải quá nhiều model ngay từ đầu vì tốn dung lượng và khó quản lý.

6. Chạy thử câu hỏi tiếng Việt

Cần test bằng câu hỏi sát bệnh viện, ví dụ:

“Viết thông báo ngắn về lịch bảo trì hệ thống nội bộ.”
“Tạo dàn ý kế hoạch cải tiến chất lượng bệnh viện.”
“Viết bảng kiểm giám sát tuân thủ quy trình rửa tay.”
“Tóm tắt đoạn văn bản hành chính sau.”
“Trả lời câu hỏi này nhưng không bịa số liệu nếu chưa có dữ liệu.”

Cần đánh giá tiếng Việt, khả năng làm theo chỉ dẫn và văn phong bệnh viện.

7. Kiểm tra GPU khi chạy model

Dùng:

watch -n 1 nvidia-smi

và:

ollama ps

Cần xem:

Model có dùng GPU không.
VRAM dùng bao nhiêu.
GPU utilization tăng không.
Model có offload CPU nhiều không.
Khi trả lời dài có ổn định không.

8. Đo tốc độ cơ bản

Cần ghi:

Model.
Quantization.
Context.
Thời gian đến token đầu tiên.
Tổng thời gian trả lời.
Cảm nhận tốc độ.
VRAM sử dụng.
RAM sử dụng.
CPU load.

Không cần benchmark quá phức tạp ngay, nhưng cần có dữ liệu để so sánh.

9. Kiểm tra model theo nhóm tác vụ

Một model có thể viết văn bản tốt nhưng code kém. Model khác có thể code tốt nhưng tiếng Việt hành chính chưa tốt. Cần test theo nhóm:

Soạn văn bản.
Tạo bảng kiểm.
Tóm tắt.
Hỏi đáp quy trình giả lập.
Hỗ trợ CNTT.
Từ chối câu hỏi vượt thẩm quyền.

10. Những lỗi thường gặp

Có thể gặp:

Ollama không chạy.
GPU không nhận.
Model chạy CPU nên chậm.
Hết VRAM.
Ổ cứng thiếu dung lượng.
Model trả lời tiếng Việt kém.
Model không làm theo prompt.
Service không tự khởi động sau reboot.

Mỗi lỗi cần ghi lại và xử lý trước khi chuyển giai đoạn.

11. Đầu ra của giai đoạn 2

Cần có:

Ollama hoạt động ổn định.
GPU được nhận.
Danh sách model đã thử.
Kết quả test sơ bộ.
Model ứng viên cho chatbot.
Lệnh vận hành cơ bản.
Tài liệu cấu hình.
Quyết định model mặc định ban đầu.

12. Kết luận

Giai đoạn cài đặt Ollama và chạy thử model giúp bệnh viện xác nhận hạ tầng AI local hoạt động thực tế. Đây là giai đoạn đo giới hạn phần cứng, chọn model ứng viên và làm quen với vận hành Ollama. Không nên vội tích hợp dữ liệu bệnh viện khi model và service chưa ổn định. Chạy thử tốt là nền tảng cho giai đoạn xây chatbot nội bộ.

Đăng nhập để gửi ý kiến