Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "HI.AI Members" các nội dung bạn quan tâm.

Bài 8. Giám sát nhiệt độ, điện năng và UPS

1. Đặt vấn đề

Máy chủ AI local sử dụng GPU có thể tiêu thụ điện và sinh nhiệt đáng kể, đặc biệt khi chạy model lớn hoặc nhiều request liên tục. Trong bệnh viện, hệ thống cần ổn định, không được tắt đột ngột do mất điện, quá nhiệt hoặc UPS không đủ tải. Vì vậy, ngoài phần mềm, người quản trị phải theo dõi nhiệt độ, điện năng và UPS.

Một hệ thống AI chạy tốt về phần mềm nhưng đặt trong môi trường nóng, nguồn điện không ổn định hoặc UPS không đủ công suất vẫn có thể gặp sự cố.

2. Theo dõi nhiệt độ GPU

Dùng:

 
nvidia-smi
 

Cần xem:

  • GPU temperature.
  • Power draw.
  • GPU utilization.
  • Fan nếu có hỗ trợ.
  • VRAM usage.

Theo dõi realtime:

 
watch -n 1 nvidia-smi
 

Nếu GPU thường xuyên quá nóng, cần kiểm tra thông gió, bụi, quạt, airflow, tải model và môi trường phòng máy.

3. Theo dõi bằng nvtop

Dùng:

 
nvtop
 

Công cụ này giúp xem GPU utilization, VRAM, nhiệt độ và tiến trình realtime. Rất hữu ích khi nhiều request đồng thời hoặc khi benchmark.

4. Theo dõi CPU và nhiệt độ hệ thống

Có thể dùng:

 
sensors
 

nếu đã cài lm-sensors.

Cần theo dõi:

  • Nhiệt độ CPU.
  • Nhiệt độ mainboard.
  • Tốc độ quạt nếu có.
  • Cảnh báo quá nhiệt.

Máy chủ đặt trong môi trường thông gió kém có thể giảm hiệu năng hoặc tắt đột ngột.

5. Điện năng GPU

nvidia-smi thường hiển thị power usage. Khi model chạy, power tăng. Cần hiểu:

  • Công suất GPU tối đa.
  • Công suất CPU.
  • Ổ cứng.
  • Mainboard.
  • Quạt.
  • Thiết bị khác.
  • Công suất UPS.

Không nên để tổng tải vượt khả năng UPS.

6. Vai trò của UPS

UPS giúp:

  • Chống mất điện đột ngột.
  • Cho hệ thống thời gian shutdown an toàn.
  • Bảo vệ ổ cứng và dữ liệu.
  • Giảm rủi ro hỏng index/database.
  • Duy trì dịch vụ trong mất điện ngắn.

Với hệ thống AI có GPU, UPS cần đủ công suất thực tế, không chỉ nhìn số VA.

7. Kiểm tra tải UPS

Cần biết:

  • Tổng công suất máy chủ.
  • Công suất UPS.
  • Tải hiện tại trên UPS.
  • Thời gian lưu điện ước tính.
  • Tình trạng pin.
  • Tuổi pin.
  • Có kết nối USB/SNMP để giám sát không.
  • Có cấu hình auto shutdown không.

Nếu UPS không đủ tải, mất điện vẫn gây tắt máy đột ngột.

8. Auto shutdown khi mất điện

Nếu UPS hỗ trợ, nên cấu hình để máy chủ tự shutdown an toàn khi pin thấp. Điều này quan trọng hơn việc cố chạy đến khi cạn pin.

Mục tiêu là:

  • Dừng dịch vụ.
  • Flush dữ liệu.
  • Tránh hỏng filesystem.
  • Tránh hỏng database/index.
  • Tự khởi động lại khi có điện nếu phù hợp.

9. Môi trường đặt máy chủ

Cần chú ý:

  • Thông gió.
  • Nhiệt độ phòng.
  • Bụi.
  • Khoảng cách airflow.
  • Dây điện.
  • Tiếp đất.
  • Không đặt sát tường gây nghẹt khí.
  • Kiểm tra tiếng quạt bất thường.

Máy chủ AI chạy GPU cần môi trường ổn định hơn máy văn phòng thông thường.

10. Cảnh báo

Nên có cảnh báo khi:

  • GPU quá nóng.
  • CPU quá nóng.
  • UPS mất điện lưới.
  • UPS pin yếu.
  • Dung lượng ổ thấp.
  • Fan lỗi.
  • Server reboot bất thường.
  • GPU không còn được nhận.

Cảnh báo có thể gửi email, Telegram nội bộ, Zalo nội bộ hoặc dashboard tùy hệ thống.

11. Kết luận

Giám sát nhiệt độ, điện năng và UPS là phần quan trọng của vận hành AI local. GPU chạy model có thể sinh nhiệt và tiêu thụ điện cao; mất điện đột ngột có thể làm hỏng dữ liệu; UPS không đủ tải có thể gây tắt máy bất ngờ. Bệnh viện cần theo dõi GPU/CPU, kiểm tra UPS, cấu hình shutdown an toàn và bảo trì môi trường phòng máy định kỳ.