Bài 2. Lớp phần cứng: máy chủ AI, GPU, RAM, SSD, HDD, UPS

1. Đặt vấn đề

Phần cứng là nền móng của hệ thống AI local. Nếu phần cứng không phù hợp, mọi lớp phía trên đều bị ảnh hưởng: model chạy chậm, hệ thống treo, không đủ dung lượng lưu tài liệu, không đủ RAM xử lý RAG, không đủ VRAM chạy model, mất điện gây hỏng dữ liệu, ổ cứng đầy làm dịch vụ ngừng hoạt động. Trong bệnh viện, nơi hệ thống cần ổn định và có thể phục vụ nhiều người dùng, phần cứng phải được thiết kế theo tư duy máy chủ, không phải theo tư duy máy tính cá nhân dùng thử.

Khi nói đến AI local, nhiều người chỉ chú ý GPU. GPU rất quan trọng, nhưng không phải là thành phần duy nhất. Một hệ thống AI local tốt cần cân bằng giữa CPU, GPU, RAM, VRAM, SSD, HDD, nguồn điện, UPS, mạng và làm mát. Nếu chỉ có GPU mạnh nhưng RAM ít, SSD nhỏ, không có UPS hoặc nguồn điện không ổn định, hệ thống vẫn khó vận hành bền vững.

2. Máy chủ AI local

Máy chủ AI local là nơi cài hệ điều hành, công cụ AI, model, dữ liệu, FAISS, API và các dịch vụ liên quan. Tùy quy mô, máy chủ có thể là một workstation mạnh, một server rack, một máy chủ GPU hoặc một cụm máy chủ.

Đối với bệnh viện, máy chủ AI nên có một số đặc điểm:

Hoạt động ổn định 24/7.
Có khả năng nâng cấp RAM, SSD, HDD, GPU.
Có hệ thống làm mát tốt.
Có nguồn điện đủ công suất.
Có khả năng quản trị từ xa.
Có mạng nội bộ ổn định.
Có backup và UPS.
Có không gian lưu trữ đủ lớn cho model và tài liệu.

Máy chủ AI nên được đặt trong môi trường phù hợp: phòng máy, tủ rack, khu vực có điện ổn định, nhiệt độ được kiểm soát và hạn chế truy cập vật lý tùy tiện.

3. CPU

CPU chịu trách nhiệm điều phối toàn bộ hệ thống. Trong AI local, CPU không chỉ dùng để chạy model khi thiếu GPU, mà còn xử lý nhiều tác vụ khác:

Chạy Ubuntu Server.
Chạy Ollama hoặc dịch vụ inference.
Chạy API trung gian.
Chạy web server.
Xử lý tài liệu.
Chia chunk.
Tạo workflow RAG.
Quản lý FAISS.
Xử lý nhiều request đồng thời.
Chạy script backup, log, monitoring.

Nếu bệnh viện dùng máy chủ nhiều nhân CPU, hệ thống sẽ thuận lợi hơn khi xử lý song song nhiều tác vụ, đặc biệt là các tác vụ tiền xử lý tài liệu và vận hành dịch vụ phụ trợ. Tuy nhiên, với LLM, CPU không thay thế hoàn toàn GPU nếu cần tốc độ phản hồi tốt.

4. GPU và VRAM

GPU là thành phần tăng tốc quan trọng nhất cho LLM local. GPU giúp model sinh câu trả lời nhanh hơn CPU rất nhiều trong nhiều trường hợp. Tuy nhiên, yếu tố quyết định không chỉ là tên GPU mà là dung lượng VRAM và khả năng tương thích.

VRAM là bộ nhớ của GPU. Model cần được nạp vào VRAM để chạy nhanh. Nếu model không vừa VRAM, một phần model phải chạy trên RAM/CPU, làm tốc độ giảm đáng kể. Vì vậy, khi chọn model, cần xem model có phù hợp với VRAM hay không.

Với GPU 16GB VRAM, bệnh viện thường có thể chạy tốt nhiều model 7B/8B lượng tử hóa và có thể thử một số model 14B lượng tử hóa. Đây là cấu hình thực tế cho giai đoạn khởi đầu AI local. Không nên kỳ vọng chạy mượt model 32B hoặc 70B phục vụ nhiều người dùng nếu không có hạ tầng GPU mạnh hơn.

GPU cũng cần được theo dõi nhiệt độ, mức sử dụng, điện năng và lỗi driver. Trong bệnh viện, một hệ thống AI local không nên vận hành theo kiểu “cài xong để đó”. Cần giám sát bằng các công cụ như nvidia-smi, nvtop hoặc dashboard monitoring.

5. RAM

RAM là yếu tố rất quan trọng, đặc biệt khi bệnh viện xử lý nhiều tài liệu và xây dựng RAG. RAM phục vụ:

Hệ điều hành.
Dịch vụ AI.
FAISS index.
Pipeline xử lý tài liệu.
Web server.
Database.
Cache.
Phần model offload nếu VRAM không đủ.
Nhiều người dùng đồng thời.

RAM lớn giúp hệ thống ổn định hơn. Khi RAM thiếu, máy chủ có thể swap ra ổ cứng, dẫn đến chậm nghiêm trọng. Trong các hệ thống xử lý tài liệu bệnh viện, RAM thường cần nhiều hơn người dùng ban đầu tưởng tượng, vì tài liệu PDF, Word, OCR, embedding và FAISS đều tiêu tốn bộ nhớ.

Đối với máy chủ AI bệnh viện, RAM nên được xem là tài nguyên chiến lược, không chỉ phụ trợ cho GPU. Nếu bệnh viện có nhiều RAM, có thể thuận lợi hơn khi chạy nhiều dịch vụ cùng lúc và xử lý kho tài liệu lớn.

6. SSD

SSD nên được dùng cho hệ điều hành, phần mềm, model đang sử dụng, chỉ mục FAISS, database và dữ liệu cần truy cập nhanh. SSD ảnh hưởng đến tốc độ tải model, tốc độ đọc ghi chỉ mục và tốc độ xử lý file.

Nếu dùng ổ cứng chậm để lưu model và chỉ mục, mỗi lần tải model hoặc cập nhật dữ liệu có thể mất nhiều thời gian. Với AI local, SSD NVMe là lựa chọn tốt cho các thành phần cần tốc độ cao.

Nên thiết kế thư mục rõ ràng:

Thư mục hệ điều hành.
Thư mục model.
Thư mục FAISS index.
Thư mục dữ liệu xử lý tạm.
Thư mục log.
Thư mục ứng dụng.

Không nên để mọi thứ lẫn lộn trong một phân vùng nhỏ, vì khi đầy ổ cứng, dịch vụ có thể lỗi.

7. HDD

HDD phù hợp để lưu trữ dung lượng lớn với chi phí thấp hơn SSD. Trong hệ thống AI local bệnh viện, HDD có thể dùng cho:

Kho tài liệu gốc.
File Word, PDF, Excel.
Dữ liệu backup.
Log lưu trữ dài hạn.
Bản sao model ít dùng.
Tài liệu đào tạo.
Snapshot định kỳ.

Bệnh viện thường có nhiều tài liệu và cần backup. HDD dung lượng lớn có vai trò quan trọng trong chiến lược lưu trữ. Tuy nhiên, không nên dùng HDD chậm cho các thành phần cần tốc độ cao như model đang chạy hoặc chỉ mục truy vấn thường xuyên nếu có thể dùng SSD.

Nếu dùng RAID1, hệ thống có khả năng chống lỗi một ổ đĩa, nhưng RAID không thay thế backup. Vẫn cần backup định kỳ sang vị trí khác.

8. UPS và nguồn điện

UPS là thành phần thường bị xem nhẹ nhưng rất quan trọng. Máy chủ AI dùng GPU có thể tiêu thụ điện đáng kể. Mất điện đột ngột có thể gây:

Dừng dịch vụ.
Hỏng file đang ghi.
Hỏng chỉ mục FAISS.
Lỗi database.
Mất dữ liệu tạm.
Gián đoạn người dùng.
Giảm tuổi thọ phần cứng.

UPS giúp máy chủ có thời gian tắt an toàn hoặc vượt qua các sự cố điện ngắn. Với bệnh viện, UPS nên đủ công suất cho máy chủ, thiết bị mạng liên quan và thời gian lưu điện cần thiết. Cần kiểm tra định kỳ pin UPS, không chỉ mua rồi bỏ đó.

9. Mạng nội bộ

AI local thường phục vụ người dùng trong LAN bệnh viện. Vì vậy, mạng nội bộ cần ổn định. Nếu máy chủ AI mạnh nhưng mạng chập chờn, người dùng vẫn gặp trải nghiệm kém.

Cần chú ý:

IP tĩnh cho máy chủ AI.
DNS nội bộ hoặc tên miền nội bộ.
Firewall.
VLAN nếu cần phân vùng.
Chỉ cho phép truy cập từ mạng được phép.
Không mở trực tiếp service model ra Internet.
Nếu truy cập từ ngoài bệnh viện, nên dùng VPN hoặc reverse proxy có xác thực.

10. Làm mát và độ ổn định vật lý

GPU chạy AI có thể sinh nhiệt cao. Nếu làm mát kém, GPU giảm xung, chậm, lỗi hoặc giảm tuổi thọ. Máy chủ cần đặt ở nơi thoáng, có kiểm soát bụi, nhiệt độ và luồng gió.

Với bệnh viện, hệ thống AI local nếu dự kiến vận hành lâu dài nên được đưa vào danh mục tài sản công nghệ cần bảo trì định kỳ: vệ sinh bụi, kiểm tra quạt, kiểm tra nhiệt độ, kiểm tra nguồn, kiểm tra ổ cứng và theo dõi cảnh báo.

11. Kết luận

Lớp phần cứng là nền tảng của hệ thống AI local bệnh viện. Một cấu hình tốt không chỉ có GPU mạnh, mà cần cân bằng CPU, GPU, RAM, VRAM, SSD, HDD, UPS, mạng và làm mát. Bệnh viện nên thiết kế phần cứng theo nhu cầu thực tế: chạy model nào, bao nhiêu người dùng, có RAG không, kho tài liệu lớn đến đâu, cần backup thế nào và yêu cầu vận hành liên tục ra sao.

Đầu tư phần cứng đúng giúp hệ thống AI local ổn định, dễ mở rộng và tạo niềm tin cho người dùng. Ngược lại, phần cứng thiếu cân bằng sẽ làm hệ thống chậm, lỗi và khó đưa vào sử dụng thật.

Đăng nhập để gửi ý kiến