Bài 1. Chuẩn bị máy chủ AI local

1. Đặt vấn đề

Trước khi cài Ollama, bệnh viện cần chuẩn bị máy chủ AI local. Đây là bước nền tảng quyết định hệ thống sau này có ổn định hay không. Nếu bỏ qua bước chuẩn bị, người triển khai có thể gặp nhiều lỗi: thiếu dung lượng ổ cứng, không nhận GPU, driver không tương thích, RAM không đủ, phân vùng lưu model sai, mạng nội bộ không truy cập được, hoặc hệ thống chạy thử được nhưng không vận hành lâu dài.

Trong môi trường bệnh viện, máy chủ AI local nên được xem là một thành phần của hạ tầng số, tương tự máy chủ HIS, LIS, PACS, website nội bộ hoặc hệ thống quản lý chất lượng. Dù giai đoạn đầu chỉ thử nghiệm, vẫn nên chuẩn bị theo hướng có thể mở rộng.

2. Xác định mục tiêu sử dụng trước khi chuẩn bị

Chuẩn bị máy chủ phải bắt đầu từ mục tiêu sử dụng. Không nên mua hoặc cấu hình máy chủ chỉ theo cảm tính. Cần trả lời một số câu hỏi:

Máy chủ dùng để thử nghiệm hay vận hành chính thức?
Có bao nhiêu người dùng dự kiến?
Dùng cho chatbot nội bộ hay chỉ chạy model bằng dòng lệnh?
Có xây dựng RAG với tài liệu bệnh viện không?
Có cần tạo embedding cho hàng nghìn tài liệu không?
Có tích hợp với Drupal hoặc website nội bộ không?
Có xử lý tài liệu PDF, Word, Excel nhiều không?
Có cần phục vụ nhiều phòng ban không?
Có yêu cầu hoạt động trong mạng LAN không?
Có cần backup dữ liệu và model không?

Nếu chỉ chạy thử một model nhỏ, yêu cầu phần cứng thấp hơn. Nếu xây dựng trợ lý AI local cho nhiều phòng ban, có RAG, FAISS, API và dashboard, máy chủ cần chuẩn bị kỹ hơn.

3. Thành phần phần cứng cần chuẩn bị

Một máy chủ AI local cần quan tâm các thành phần chính:

3.1. CPU

CPU xử lý hệ điều hành, dịch vụ nền, API, xử lý tài liệu, tạo embedding trong một số trường hợp và điều phối toàn bộ hệ thống. CPU nhiều nhân có lợi khi chạy nhiều tác vụ song song.

3.2. GPU

GPU giúp tăng tốc inference. Với LLM local, GPU NVIDIA thường được dùng phổ biến vì hệ sinh thái driver và công cụ hỗ trợ tốt. Dung lượng VRAM là yếu tố rất quan trọng.

3.3. RAM

RAM cần cho hệ điều hành, model, FAISS, xử lý tài liệu, web server, API và các tiến trình phụ trợ. Với bệnh viện có kho tài liệu lớn, RAM càng quan trọng.

3.4. SSD

SSD nên dùng cho hệ điều hành, model đang chạy, chỉ mục FAISS, ứng dụng và database. SSD NVMe giúp tải model và xử lý dữ liệu nhanh hơn.

3.5. HDD

HDD dung lượng lớn phù hợp để lưu tài liệu gốc, backup, dữ liệu xử lý, file lớn và bản sao định kỳ.

3.6. UPS

UPS giúp bảo vệ máy chủ khi mất điện hoặc điện áp không ổn định. Với máy chủ AI dùng GPU, UPS cần đủ công suất và cần được kiểm tra định kỳ.

3.7. Mạng nội bộ

Máy chủ cần IP tĩnh, kết nối LAN ổn định, firewall rõ ràng và không mở cổng không cần thiết ra Internet.

4. Chuẩn bị không gian lưu trữ

Model AI local có thể rất lớn. Một model nhỏ có thể vài GB, model lớn có thể hàng chục GB. Nếu tải nhiều model, dung lượng tăng nhanh. Ngoài model, hệ thống còn cần lưu:

Tài liệu gốc.
Tài liệu đã xử lý.
Chunk text.
Embedding.
Chỉ mục FAISS.
Log.
Backup.
File tạm.
Database ứng dụng.

Vì vậy, không nên để toàn bộ dữ liệu AI nằm trong phân vùng root nhỏ. Nên có phân vùng hoặc mount riêng cho dữ liệu AI, ví dụ:

/mnt/data/ai/models
/mnt/data/ai/docs
/mnt/data/ai/faiss
/mnt/data/ai/backups
/mnt/data/ai/logs

Cấu trúc cụ thể có thể thay đổi, nhưng nguyên tắc là tách rõ model, dữ liệu, chỉ mục, log và backup.

5. Chuẩn bị hệ điều hành

Ubuntu Server là lựa chọn phù hợp cho máy chủ AI local. Trước khi cài Ollama, cần đảm bảo:

Hệ điều hành đã cập nhật ở mức ổn định.
SSH hoạt động.
Tài khoản quản trị rõ ràng.
Ổ cứng được mount đúng.
Network cấu hình đúng.
Timezone đúng.
Firewall được kiểm soát.
Driver GPU sẽ được cài đúng cách.
Có quyền sudo hoặc root cho người quản trị.

Không nên cài quá nhiều phần mềm không cần thiết trên máy chủ AI. Máy chủ càng gọn, càng dễ bảo trì.

6. Chuẩn bị tài khoản và quyền truy cập

Cần xác định ai có quyền quản trị máy chủ. Không nên nhiều người dùng chung tài khoản root mà không kiểm soát. Có thể tạo các nhóm quyền:

Quản trị hệ thống.
Quản trị AI/model.
Quản trị dữ liệu.
Người dùng ứng dụng.

Ở giai đoạn đầu, có thể đơn giản hơn, nhưng vẫn nên ghi nhận ai được quyền SSH, ai được cài phần mềm, ai được tải model, ai được xóa model.

7. Chuẩn bị mạng và tên miền nội bộ

Nếu Ollama chỉ chạy thử trên máy chủ, chưa cần mở truy cập LAN. Nhưng nếu dự kiến tích hợp chatbot hoặc website nội bộ, cần chuẩn bị:

IP tĩnh cho máy chủ AI.
Tên miền nội bộ nếu có.
Firewall.
Reverse proxy nếu cần.
Quy định cổng truy cập.
Không mở trực tiếp Ollama ra Internet.
Nếu truy cập từ ngoài bệnh viện, nên qua VPN.

Giai đoạn đầu, nên để Ollama chỉ chạy local hoặc giới hạn trong LAN. Khi có API trung gian và xác thực mới mở rộng.

8. Chuẩn bị phương án backup

Ngay từ đầu nên xác định những gì cần backup:

File cấu hình hệ thống.
Danh sách model đã cài.
Modelfile tùy biến.
Tài liệu gốc.
Chỉ mục FAISS.
Metadata.
Cấu hình API.
Cấu hình web/chatbot.
Log quan trọng.
Script triển khai.

Model có thể tải lại, nhưng nếu mạng chậm hoặc model lớn, backup model cũng có giá trị. Dữ liệu tài liệu và metadata thường quan trọng hơn model vì đó là tri thức nội bộ đã xử lý.

9. Chuẩn bị quy chế thử nghiệm

Trước khi cho người dùng thử, cần có quy chế tối thiểu:

Không nhập dữ liệu người bệnh định danh.
Không dùng AI để ra quyết định chuyên môn.
Câu trả lời chỉ mang tính hỗ trợ.
Văn bản AI tạo ra phải được kiểm tra.
Không chia sẻ tài khoản thử nghiệm.
Báo lỗi khi AI trả lời sai.
Không đưa tài liệu mật vào khi chưa được phép.

Ngay cả thử nghiệm nhỏ cũng nên có nguyên tắc rõ để tránh hình thành thói quen sử dụng sai.

10. Kết luận

Chuẩn bị máy chủ AI local không chỉ là kiểm tra có máy và có GPU. Đó là quá trình xác định mục tiêu, kiểm tra phần cứng, chuẩn bị hệ điều hành, tổ chức lưu trữ, cấu hình mạng, phân quyền quản trị, chuẩn bị backup và xây dựng quy chế thử nghiệm.

Một máy chủ được chuẩn bị tốt sẽ giúp quá trình cài Ollama thuận lợi hơn, giảm lỗi kỹ thuật và tạo nền tảng cho triển khai AI local an toàn trong bệnh viện.

Đăng nhập để gửi ý kiến