六个人如何运维一万台服务器?

来源:互联网 发布:秦舞阳13岁杀人知乎 编辑:程序博客网 时间:2024/04/29 23:29

我 2013 年加入去哪儿网,一直在从事运维开发工作。去哪儿网运维开发有一个特点,所有开发既当 PM,又当 QA,也没有区分前端工作还是后端工作,用现在比较流行的话说,我们都是全栈工程师。

加入去哪儿这几年,我做的工作也是比较零碎的,哪里有需求就去哪里。

概括起来主要涉及主机管理、应用管理、监控、报警平台等设计,开发和运维这几方面的工作。

b700436f1eb5903d44b71e1e53bdb39f63816236

下面简单介绍一下我们的运维团队:

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

  • 我们的运维团队负责公司所有的服务器、网络等硬件平台的运维工作。
  • 部分人员从事日常运维,包括 QVS 的部署,Nginx 的配置,应用上线的支持,存储的部署等,还包括报警的告知、故障的通报和跟踪。
  • 2013 年左右,我们开始研发自己的运维平台。
  • 负责公司内网的应用,这些内网包括 OA 系统、HR 系统,还有 IT 资产管理平台等等。
去哪儿网应用运维平台介绍

首先简单介绍一下去哪儿网应用运维平台。

e72c336273dd1a857f60f0531110002cc4662f66

我们知道一个应用从开发到线上运行,它的生命周期主要涉及到四个部分:

  • 应用的资源管理,这些资源包括应用部署需要的主机、应用的图片、文件,对象存储所需要的存储资源,应用通信和其他的网络带宽,还有应用所需要的计算资源等等。
  • 为了提高应用开发的效率,并且保证应用开发的规范,我们公司会提供公共的中间件,这些中间件包括日志收集、应用配置注册、监控报警指标的收集,还有应用调用路径。
  • 为了将我们的应用发布到线上,我们需要对应用进行代码管理和构建测试到发布到线上,这需要 CI/CD 持续发布和持续集成。
  • 当一个应用发布到线上之后,我们需要对这个应用的性能指标和业务指标进行监控、报警和分析,这样就需要应用相关的监控、报警和日志分析平台。

去哪儿网的业务也是一步步发展起来的,机器从几十台到上万台,在发展的过程中我们遇到了很多问题,在不同的阶段我们也提出了不同的解决方案。

原文链接

阅读全文
0 0
原创粉丝点击