Google SRE (DevOps)

来源：互联网发布：新站优化方案编辑：程序博客网时间：2024/04/29 08:27

Borg + Omega 两大平台

http://www.infoq.com/cn/presentations/experience-of-google-devops-landing-practice#anch131871

#Site Reliability Engineering (DevOps)
》Site
生产线管理、跟服务一起成长、最懂基础架构设施
》Reliability
SLO(Service Level Objective):make plan
人的贡献力量是有限的:利用自动化工具
救火队员与纵火队员，自己点火烧自己
选好服务上线的时间(避免人不在的时间段)
》Engineering
做工程师该做的事、对未来负责(计划)、报警系统重度(中毒)用户

#人力资源
》技能点偏系统段 (software + system) engineering
》重度强迫症与处女座 not accept doing thing over and over by hand "Ben Treynor" 人不能参与程序维护
》脸皮厚 DEV(more and more)与 OPS(say no) 的永恒冲突 (Eternal conflict) 归结为数字结论

#组织地位
BOSS ----
产品线(小boss、艺术类、开发团队) ----
生产线(业务性SRE、基础架构SRE、数据中心运营(每天都在处理问题)、供应链(供应商或自主制造))
hot-add cpu/memory

#SRE团队
》松散的学习型组织(以产品线为核心、松散的学习型组织)
》SRE要做什么、SRE说了算
PRR(Prodcution Readiness Review) 解决应用潜在问题

#项目早期活动
1.自动化建议(automating routine tasks)
2.points out errors,omissions in documents看开发者应用文档
3.长期愿景与目标

#项目成熟期活动
fixing known bugs (take turns and on-call)

#Deployment model
Following the sun
任何一个成员都可以解决问题，留下不能解决的问题文档
Redundancy everywhere:多做准备

#Maturity model
initial - repeatable - defined - managed - optimizing

#OPS Overload
1.避免复杂度过高(持续不断地降低系统复杂度-Reduce complexity)
2.No humans operating (世界只剩下你和电脑)
3.Quarterly Service Review (Provide career path:成长空间)

#SLO Budgeting

#Failures分类
>.安全生产指标
MTBF/MTTR

#Graceful degradation
1.Caching/Time shifting
2.Failover
3.Redundant Instances,N+@
4.Localization

#实战演练

#D.I.R.T

#POSTMOTERM 演练文档as lessons
1.纪录facts
2.Root cause

# 5 Whys

#Make Action Plan

0 0