监控运维那点事-vsphere

来源:互联网 发布:水仙花数java 编辑:程序博客网 时间:2024/06/06 09:13
之前都是长篇大论,这次聚焦一些,现在云计算虚拟化技术非常火,大部分企业使用OpenStack或者是VMWare vSphere进行私有云部署。配套的运维管理手段也要提升,这里将小编的一些新的分享下。
那么虚拟化平台的运维与传统的物理设备运维有些什么不同?
1. 复杂度增加,从资源使用方(业务系统)来说,资源开通更便捷,但是从IT架构的角度来说,更复杂,毕竟加了一层虚拟化层。
2. 不确定性增加,包括超配比动态设定, 虚拟机负载差异化造成物理集群负载不均衡。而且是动态变化的。
 openstack使用了大量的开源软件,组合较多,包括计算虚拟化KVM、存储虚拟化(Glusterfs或CEPH)、网络虚拟化(OpenvSwitch)等。由于openstack的宿主机基本上是标准操作系统,所以监控手段可以通过脚本/agent等方式去处理。
vSphere作为封闭的商用软件,物理宿主机Esxi是以阉割版的linux,大多指令都不支持,所以通过脚本/agent模式监控不太靠谱。基本上都是通过vSphere vCenter进行,下面我们重点说说vSphere监控。
1. 物理故障
2. 性能负载
3. 容量监控
4. 告警通知

在vCenter中,具体的数据中心下“警报”可以看到对应的报警策略定义。
图片
1. 物理故障包括: 物理主机CPU、内存、网卡、存储、以及与vc的连接。一般来说如果出现硬件故障,基本上要查看下是否可以登陆上物理机,如果登陆不上,一般是重启,之后迁移虚拟机。硬件故障基本上只能联系厂家了。
2. 性能监控:这一点,可以参考之前《
监控运维那点事--基础设施监控3》 
使用率:CPU使用率(wait,sys,user),1分钟load值 ,内存使用率,swap使用。
吞吐量: 磁盘的iops(每秒读写次数),pbs(每秒读写量),时延等待;网卡的iops(每秒包数),pbs(出入带宽)
3. 容量监控: 主要是存储datastore的容量和io容量两点。
     使用量: 总容量、已使用量
     io: iops和bps,还有一个很重要的就是io时延,这个vCenter提供的监控还是挺不错的。io时延是指读写等待响应耗时,这一点在虚拟机上不好发现。

4. 告警通知,将告警通知到具体的运维人员中。一般来说vSphere虚拟化监控和其他监控都会由一个团队进行管理,所以告警统一归口到一个界面集中处理很重要。信息同时汇总会有助于告警的判断分析和定位。
具体的告警通知配置可以参见 http://www.110monitor.com/open/alert/vsphere.jsp
0 0
原创粉丝点击