监控运维那点事-vsphere

来源：互联网发布：水仙花数java 编辑：程序博客网时间：2024/06/06 09:13

之前都是长篇大论，这次聚焦一些，现在云计算虚拟化技术非常火，大部分企业使用OpenStack或者是VMWare vSphere进行私有云部署。配套的运维管理手段也要提升，这里将小编的一些新的分享下。
那么虚拟化平台的运维与传统的物理设备运维有些什么不同？
1. 复杂度增加，从资源使用方（业务系统）来说，资源开通更便捷，但是从IT架构的角度来说，更复杂，毕竟加了一层虚拟化层。
2. 不确定性增加，包括超配比动态设定，虚拟机负载差异化造成物理集群负载不均衡。而且是动态变化的。
openstack使用了大量的开源软件，组合较多，包括计算虚拟化KVM、存储虚拟化（Glusterfs或CEPH）、网络虚拟化（OpenvSwitch）等。由于openstack的宿主机基本上是标准操作系统，所以监控手段可以通过脚本/agent等方式去处理。
vSphere作为封闭的商用软件，物理宿主机Esxi是以阉割版的linux，大多指令都不支持，所以通过脚本/agent模式监控不太靠谱。基本上都是通过vSphere vCenter进行，下面我们重点说说vSphere监控。
1. 物理故障
2. 性能负载
3. 容量监控
4. 告警通知

在vCenter中，具体的数据中心下“警报”可以看到对应的报警策略定义。

1. 物理故障包括：物理主机CPU、内存、网卡、存储、以及与vc的连接。一般来说如果出现硬件故障，基本上要查看下是否可以登陆上物理机，如果登陆不上，一般是重启，之后迁移虚拟机。硬件故障基本上只能联系厂家了。
2. 性能监控：这一点，可以参考之前《监控运维那点事--基础设施监控3》

使用率：CPU使用率（wait，sys，user），1分钟load值，内存使用率，swap使用。
吞吐量：磁盘的iops（每秒读写次数），pbs（每秒读写量），时延等待；网卡的iops（每秒包数），pbs（出入带宽）。

3. 容量监控：主要是存储datastore的容量和io容量两点。
使用量：总容量、已使用量
io： iops和bps，还有一个很重要的就是io时延，这个vCenter提供的监控还是挺不错的。io时延是指读写等待响应耗时，这一点在虚拟机上不好发现。
4. 告警通知，将告警通知到具体的运维人员中。一般来说vSphere虚拟化监控和其他监控都会由一个团队进行管理，所以告警统一归口到一个界面集中处理很重要。信息同时汇总会有助于告警的判断分析和定位。
具体的告警通知配置可以参见 http://www.110monitor.com/open/alert/vsphere.jsp

0 0