Google SRE (DevOps)

来源:互联网 发布:新站优化方案 编辑:程序博客网 时间:2024/04/29 08:27
Borg + Omega 两大平台


http://www.infoq.com/cn/presentations/experience-of-google-devops-landing-practice#anch131871


#Site Reliability Engineering  (DevOps)
》Site
生产线管理、跟服务一起成长、最懂基础架构设施
》Reliability
SLO(Service Level Objective):make plan
人的贡献力量是有限的:利用自动化工具
救火队员与纵火队员,自己点火烧自己
选好服务上线的时间(避免人不在的时间段)
》Engineering
做工程师该做的事、对未来负责(计划)、报警系统重度(中毒)用户


#人力资源
》技能点偏系统段 (software + system) engineering
》重度强迫症与处女座 not accept doing thing over and over by hand  "Ben Treynor" 人不能参与程序维护
》脸皮厚 DEV(more and more)与 OPS(say no) 的永恒冲突 (Eternal conflict) 归结为数字结论


#组织地位
BOSS ---- 
产品线(小boss、艺术类、开发团队) ---- 
生产线(业务性SRE、基础架构SRE、数据中心运营(每天都在处理问题)、供应链(供应商或自主制造))
hot-add cpu/memory


#SRE团队
》松散的学习型组织(以产品线为核心、松散的学习型组织)
》SRE要做什么、SRE说了算
PRR(Prodcution Readiness Review) 解决应用潜在问题


#项目早期活动
1.自动化建议(automating routine tasks)
2.points out errors,omissions in documents看开发者应用文档
3.长期愿景与目标


#项目成熟期活动
fixing known bugs (take turns and on-call)


#Deployment model
Following the sun
任何一个成员都可以解决问题,留下不能解决的问题文档
Redundancy everywhere:多做准备


#Maturity model
 initial - repeatable - defined - managed - optimizing


#OPS Overload
1.避免复杂度过高(持续不断地降低系统复杂度-Reduce complexity)
2.No humans operating (世界只剩下你和电脑)
3.Quarterly Service Review (Provide career path:成长空间)


#SLO Budgeting


#Failures分类
>.安全生产指标
MTBF/MTTR


#Graceful degradation
1.Caching/Time shifting
2.Failover
3.Redundant Instances,N+@
4.Localization


#实战演练


#D.I.R.T


#POSTMOTERM 演练文档as lessons
1.纪录facts
2.Root cause


# 5 Whys


#Make Action Plan
0 0
原创粉丝点击