1.安裝Ganglia,這裏安裝的是3.1*版本,由於監控GPU的模塊只支持3.1*版本系列的php
apt-get install ganglia*
2.下載並安裝PyNVML和NVML模塊,下載地址https://github.com/ganglia/gmond_python_modules/tree/master/gpu前端
安裝PyNVML,安裝文檔上要求python爲2.5或更早版本,其實系統自帶python版本2.7.3是能夠經過編譯的,這裏就不須要更換python環境了python
cd ~/nvidia/nvidia-ml-py-* python setup.py install
安裝NVMLgit
2.1複製python模塊到Ganglia模塊目錄github
mkdir /usr/lib/ganglia/python_modules cp python_modules/* /usr/lib/ganglia/python_modules
2.2複製配置文件和前端圖形展示文件到ganglia相關目錄web
mkdir /etc/ganglia/conf.d cp conf.d/* /etc/ganglia/conf.d cp graph.d/* /usr/share/ganglia-webfrontend/graph.d/
2.3爲web頁面打補丁bash
cp ganglia_web.patch /usr/share/ganglia-webfrontend/ cp ganglia_web.patch /usr/share/ganglia-webfrontend/templates/default/ cd /usr/share/ganglia-webfrontend/ cp host_view.php host_view.php.bak patch <ganglia_web.patch cd /usr/share/ganglia-webfrontend/templates/default/ cp host_view.tpl host_view.tpl.bak patch <ganglia_web.patch
3.將服務端/etc/ganglia/gmond.conf文件拷貝到客戶端/etc/ganglia/,並在conf.d目錄下新建modpython.conf文件,內容以下服務器
modules { module { name = "python_module" path = "/usr/lib/ganglia/modpython.so" params = "/usr/lib/ganglia/python_modules" } }
4.啓動服務frontend
service ganglia-monitor start
5.說明:以上都是客戶端配置,服務器端配置的話也要通過上面的步驟,只不過須要多開啓幾個服務,若是被監控的GPU看不到圖形的話,請運行如下命令rest
python /usr/lib/ganglia/python_moudles/nvidia.py
service ganglia-monitor restart
6.以上步驟的腳本放到服務器端,批量部署客戶端,腳本以下
#!/bin/bash
cd ~ wget 192.168.87.102/nvidia.zip unzip nvidia.zip cp ~/nvidia/sources.list /etc/apt/ apt-get update apt-get -y install ganglia* cd ~/nvidia/nvidia-ml-py-* python setup.py install cp ~/nvidia/graph.d/* /usr/share/ganglia-webfrontend/graph.d/ cp ~/nvidia/host_view.php /usr/share/ganglia-webfrontend/ cp ~/nvidia/host_view.tpl /usr/share/ganglia-webfrontend/templates/default/ mkdir /usr/lib/ganglia/python_modules cp ~/nvidia/python_modules/* /usr/lib/ganglia/python_modules mkdir /etc/ganglia/conf.d cp ~/nvidia/conf.d/* /etc/ganglia/conf.d cp ~/nvidia/gmond.conf /etc/ganglia/ service ganglia-monitor restart rm -rf ~/nvidia* rm -rf ~/gpu*
執行腳本
wget 192.168.87.102/gpu.sh && chmod +x gpu.sh && sh gpu.sh
下圖是被監控GPU服務器的詳細界面