1. Đặt vấn đề
Máy chủ AI local sử dụng GPU có thể tiêu thụ điện và sinh nhiệt đáng kể, đặc biệt khi chạy model lớn hoặc nhiều request liên tục. Trong bệnh viện, hệ thống cần ổn định, không được tắt đột ngột do mất điện, quá nhiệt hoặc UPS không đủ tải. Vì vậy, ngoài phần mềm, người quản trị phải theo dõi nhiệt độ, điện năng và UPS.
Một hệ thống AI chạy tốt về phần mềm nhưng đặt trong môi trường nóng, nguồn điện không ổn định hoặc UPS không đủ công suất vẫn có thể gặp sự cố.
2. Theo dõi nhiệt độ GPU
Dùng:
nvidia-smiCần xem:
- GPU temperature.
- Power draw.
- GPU utilization.
- Fan nếu có hỗ trợ.
- VRAM usage.
Theo dõi realtime:
watch -n 1 nvidia-smiNếu GPU thường xuyên quá nóng, cần kiểm tra thông gió, bụi, quạt, airflow, tải model và môi trường phòng máy.
3. Theo dõi bằng nvtop
Dùng:
nvtopCông cụ này giúp xem GPU utilization, VRAM, nhiệt độ và tiến trình realtime. Rất hữu ích khi nhiều request đồng thời hoặc khi benchmark.
4. Theo dõi CPU và nhiệt độ hệ thống
Có thể dùng:
sensorsnếu đã cài lm-sensors.
Cần theo dõi:
- Nhiệt độ CPU.
- Nhiệt độ mainboard.
- Tốc độ quạt nếu có.
- Cảnh báo quá nhiệt.
Máy chủ đặt trong môi trường thông gió kém có thể giảm hiệu năng hoặc tắt đột ngột.
5. Điện năng GPU
nvidia-smi thường hiển thị power usage. Khi model chạy, power tăng. Cần hiểu:
- Công suất GPU tối đa.
- Công suất CPU.
- Ổ cứng.
- Mainboard.
- Quạt.
- Thiết bị khác.
- Công suất UPS.
Không nên để tổng tải vượt khả năng UPS.
6. Vai trò của UPS
UPS giúp:
- Chống mất điện đột ngột.
- Cho hệ thống thời gian shutdown an toàn.
- Bảo vệ ổ cứng và dữ liệu.
- Giảm rủi ro hỏng index/database.
- Duy trì dịch vụ trong mất điện ngắn.
Với hệ thống AI có GPU, UPS cần đủ công suất thực tế, không chỉ nhìn số VA.
7. Kiểm tra tải UPS
Cần biết:
- Tổng công suất máy chủ.
- Công suất UPS.
- Tải hiện tại trên UPS.
- Thời gian lưu điện ước tính.
- Tình trạng pin.
- Tuổi pin.
- Có kết nối USB/SNMP để giám sát không.
- Có cấu hình auto shutdown không.
Nếu UPS không đủ tải, mất điện vẫn gây tắt máy đột ngột.
8. Auto shutdown khi mất điện
Nếu UPS hỗ trợ, nên cấu hình để máy chủ tự shutdown an toàn khi pin thấp. Điều này quan trọng hơn việc cố chạy đến khi cạn pin.
Mục tiêu là:
- Dừng dịch vụ.
- Flush dữ liệu.
- Tránh hỏng filesystem.
- Tránh hỏng database/index.
- Tự khởi động lại khi có điện nếu phù hợp.
9. Môi trường đặt máy chủ
Cần chú ý:
- Thông gió.
- Nhiệt độ phòng.
- Bụi.
- Khoảng cách airflow.
- Dây điện.
- Tiếp đất.
- Không đặt sát tường gây nghẹt khí.
- Kiểm tra tiếng quạt bất thường.
Máy chủ AI chạy GPU cần môi trường ổn định hơn máy văn phòng thông thường.
10. Cảnh báo
Nên có cảnh báo khi:
- GPU quá nóng.
- CPU quá nóng.
- UPS mất điện lưới.
- UPS pin yếu.
- Dung lượng ổ thấp.
- Fan lỗi.
- Server reboot bất thường.
- GPU không còn được nhận.
Cảnh báo có thể gửi email, Telegram nội bộ, Zalo nội bộ hoặc dashboard tùy hệ thống.
11. Kết luận
Giám sát nhiệt độ, điện năng và UPS là phần quan trọng của vận hành AI local. GPU chạy model có thể sinh nhiệt và tiêu thụ điện cao; mất điện đột ngột có thể làm hỏng dữ liệu; UPS không đủ tải có thể gây tắt máy bất ngờ. Bệnh viện cần theo dõi GPU/CPU, kiểm tra UPS, cấu hình shutdown an toàn và bảo trì môi trường phòng máy định kỳ.
- Đăng nhập để gửi ý kiến