Prometheus
-
여러 딥러닝 워크스테이션 GPU 사용량 모니터링 방법 (Grafana 및 Prometheus를 이용한)카테고리 없음 2026. 2. 24. 14:58
0. 서론최근 교내 서버실에 에어컨이 고장나는 상황이 발생하였는데 연구실 GPU 등 과열이 발생할 경우 재성능을 발휘하지 못하거나 고장이 날 수 있는 등의 문제를 초래할 수 있어 다음과 같은 방법으로 연구실 내 있는 모든 워크스테이션의 상태를 모니터링 할 수 있도록 만들어 두었습니다. 물론 쿠버네티스나 슬럼과 같은 고도화 된 방법을 사용할 수 있지만 더 많은 시간을 허비하고 싶진 않아서 빠르고 쉽게 모니터링 환경을 구축해보실 분들은 다음 방법을 사용해보시길 추천드립니다. 1.1 Docker 설치 sudo apt-get updatesudo apt-get install apt-transport-https ca-certificates curl gnupg-agent software-properties-commo..