ubuntu12.04通过Ganglia利用NVML模块进行GPU监控
来源:互联网 发布:adobe cc mac 注册机 编辑:程序博客网 时间:2024/05/01 04:52
转载自:点击打开链接
1.安装Ganglia,这里安装的是3.1*版本,因为监控GPU的模块只支持3.1*版本系列的
apt-get install ganglia*
2.下载并安装PyNVML和NVML模块,下载地址https://github.com/ganglia/gmond_python_modules/tree/master/gpu
安装PyNVML,安装文档上要求python为2.5或更早版本,其实系统自带python版本2.7.3是可以通过编译的,这里就不需要更换python环境了
cd ~/nvidia/nvidia-ml-py-*python setup.py install
安装NVML
2.1复制python模块到Ganglia模块目录
mkdir /usr/lib/ganglia/python_modulescp python_modules/* /usr/lib/ganglia/python_modules
2.2复制配置文件和前端图形展现文件到ganglia相关目录
mkdir /etc/ganglia/conf.dcp conf.d/* /etc/ganglia/conf.dcp graph.d/* /usr/share/ganglia-webfrontend/graph.d/
2.3为web页面打补丁
cp ganglia_web.patch /usr/share/ganglia-webfrontend/cp ganglia_web.patch /usr/share/ganglia-webfrontend/templates/default/cd /usr/share/ganglia-webfrontend/cp host_view.php host_view.php.bakpatch <ganglia_web.patch cd /usr/share/ganglia-webfrontend/templates/default/cp host_view.tpl host_view.tpl.bakpatch <ganglia_web.patch
3.将服务端/etc/ganglia/gmond.conf文件拷贝到客户端/etc/ganglia/,并在conf.d目录下新建modpython.conf文件,内容如下
modules { module { name = "python_module" path = "/usr/lib/ganglia/modpython.so" params = "/usr/lib/ganglia/python_modules" }}
4.启动服务
service ganglia-monitor start
5.说明:以上都是客户端配置,服务器端配置的话也要经过上面的步骤,只不过需要多开启几个服务,如果被监控的GPU看不到图形的话,请运行以下命令
python /usr/lib/ganglia/python_moudles/nvidia.py
service ganglia-monitor restart
6.以上步骤的脚本放到服务器端,批量部署客户端,脚本如下
#!/bin/bash
cd ~wget 192.168.87.102/nvidia.zipunzip nvidia.zipcp ~/nvidia/sources.list /etc/apt/apt-get updateapt-get -y install ganglia*cd ~/nvidia/nvidia-ml-py-*python setup.py installcp ~/nvidia/graph.d/* /usr/share/ganglia-webfrontend/graph.d/cp ~/nvidia/host_view.php /usr/share/ganglia-webfrontend/cp ~/nvidia/host_view.tpl /usr/share/ganglia-webfrontend/templates/default/ mkdir /usr/lib/ganglia/python_modulescp ~/nvidia/python_modules/* /usr/lib/ganglia/python_modulesmkdir /etc/ganglia/conf.dcp ~/nvidia/conf.d/* /etc/ganglia/conf.dcp ~/nvidia/gmond.conf /etc/ganglia/service ganglia-monitor restartrm -rf ~/nvidia*rm -rf ~/gpu*
执行脚本
wget 192.168.87.102/gpu.sh && chmod +x gpu.sh && sh gpu.sh
下图是被监控GPU服务器的详细界面
0 0
- ubuntu12.04通过Ganglia利用NVML模块进行GPU监控
- Ubuntu12.04安装ganglia监控
- 使用Ganglia对hadoop进行监控
- 使用Ganglia对hadoop进行监控
- 利用GPGPU方法将大量数据通过纹理传输至GPU进行计算
- 利用OpenCV中提供的GPU模块
- ubuntu12.04 LTS 下安装GPU
- Ubuntu12.04 安装 LAMMPS GPU 并行版
- Ganglia服务器监控软件
- ganglia监控mysql
- 使用Ganglia监控Hadoop
- Ganglia:分布式监控系统
- 分布式监控系统Ganglia
- 分布式监控系统 --- Ganglia
- 分布式监控系统 Ganglia
- Ganglia监控Hadoop
- 分布式监控系统 Ganglia
- ganglia监控的安装
- app 上传审核详解
- linux的简要设置及操作入门
- Oracle将查询结果存入临时表的写法
- 常见Java面试题 – 第二部分:equals与==
- CCCallFunc
- ubuntu12.04通过Ganglia利用NVML模块进行GPU监控
- 近阈值计算序曲
- TCP协议中的三次握手和四次挥手(图解)
- UVA - 10034 Freckles kruskal算法
- Automake系列( 四)安装可执行脚本
- android 蓝牙搜索
- SwipeRefreshLayout完美添加及完善上拉加载功能
- GPS坐标转换ddmm.mmmm(度分)-> dd.dddd(度)
- XCode 4 的调试定位技巧