Google SRE (DevOps)
来源:互联网 发布:新站优化方案 编辑:程序博客网 时间:2024/04/29 08:27
Borg + Omega 两大平台
http://www.infoq.com/cn/presentations/experience-of-google-devops-landing-practice#anch131871
#Site Reliability Engineering (DevOps)
》Site
生产线管理、跟服务一起成长、最懂基础架构设施
》Reliability
SLO(Service Level Objective):make plan
人的贡献力量是有限的:利用自动化工具
救火队员与纵火队员,自己点火烧自己
选好服务上线的时间(避免人不在的时间段)
》Engineering
做工程师该做的事、对未来负责(计划)、报警系统重度(中毒)用户
#人力资源
》技能点偏系统段 (software + system) engineering
》重度强迫症与处女座 not accept doing thing over and over by hand "Ben Treynor" 人不能参与程序维护
》脸皮厚 DEV(more and more)与 OPS(say no) 的永恒冲突 (Eternal conflict) 归结为数字结论
#组织地位
BOSS ----
产品线(小boss、艺术类、开发团队) ----
生产线(业务性SRE、基础架构SRE、数据中心运营(每天都在处理问题)、供应链(供应商或自主制造))
hot-add cpu/memory
#SRE团队
》松散的学习型组织(以产品线为核心、松散的学习型组织)
》SRE要做什么、SRE说了算
PRR(Prodcution Readiness Review) 解决应用潜在问题
#项目早期活动
1.自动化建议(automating routine tasks)
2.points out errors,omissions in documents看开发者应用文档
3.长期愿景与目标
#项目成熟期活动
fixing known bugs (take turns and on-call)
#Deployment model
Following the sun
任何一个成员都可以解决问题,留下不能解决的问题文档
Redundancy everywhere:多做准备
#Maturity model
initial - repeatable - defined - managed - optimizing
#OPS Overload
1.避免复杂度过高(持续不断地降低系统复杂度-Reduce complexity)
2.No humans operating (世界只剩下你和电脑)
3.Quarterly Service Review (Provide career path:成长空间)
#SLO Budgeting
#Failures分类
>.安全生产指标
MTBF/MTTR
#Graceful degradation
1.Caching/Time shifting
2.Failover
3.Redundant Instances,N+@
4.Localization
#实战演练
#D.I.R.T
#POSTMOTERM 演练文档as lessons
1.纪录facts
2.Root cause
# 5 Whys
#Make Action Plan
http://www.infoq.com/cn/presentations/experience-of-google-devops-landing-practice#anch131871
#Site Reliability Engineering (DevOps)
》Site
生产线管理、跟服务一起成长、最懂基础架构设施
》Reliability
SLO(Service Level Objective):make plan
人的贡献力量是有限的:利用自动化工具
救火队员与纵火队员,自己点火烧自己
选好服务上线的时间(避免人不在的时间段)
》Engineering
做工程师该做的事、对未来负责(计划)、报警系统重度(中毒)用户
#人力资源
》技能点偏系统段 (software + system) engineering
》重度强迫症与处女座 not accept doing thing over and over by hand "Ben Treynor" 人不能参与程序维护
》脸皮厚 DEV(more and more)与 OPS(say no) 的永恒冲突 (Eternal conflict) 归结为数字结论
#组织地位
BOSS ----
产品线(小boss、艺术类、开发团队) ----
生产线(业务性SRE、基础架构SRE、数据中心运营(每天都在处理问题)、供应链(供应商或自主制造))
hot-add cpu/memory
#SRE团队
》松散的学习型组织(以产品线为核心、松散的学习型组织)
》SRE要做什么、SRE说了算
PRR(Prodcution Readiness Review) 解决应用潜在问题
#项目早期活动
1.自动化建议(automating routine tasks)
2.points out errors,omissions in documents看开发者应用文档
3.长期愿景与目标
#项目成熟期活动
fixing known bugs (take turns and on-call)
#Deployment model
Following the sun
任何一个成员都可以解决问题,留下不能解决的问题文档
Redundancy everywhere:多做准备
#Maturity model
initial - repeatable - defined - managed - optimizing
#OPS Overload
1.避免复杂度过高(持续不断地降低系统复杂度-Reduce complexity)
2.No humans operating (世界只剩下你和电脑)
3.Quarterly Service Review (Provide career path:成长空间)
#SLO Budgeting
#Failures分类
>.安全生产指标
MTBF/MTTR
#Graceful degradation
1.Caching/Time shifting
2.Failover
3.Redundant Instances,N+@
4.Localization
#实战演练
#D.I.R.T
#POSTMOTERM 演练文档as lessons
1.纪录facts
2.Root cause
# 5 Whys
#Make Action Plan
0 0
- Google SRE (DevOps)
- Google SRE 概览
- Google SRE 指导思想
- IT专业人员演变成具有正确DevOps技能的SRE
- 优维DevOps系列沙龙 | DevOps&SRE 超越传统运维之道
- SRE运维解密&google生产环境
- google SRE运维解密&拥抱风险
- google SRE运维解密&服务质量目标
- google SRE运维解密&减少琐事
- google SRE运维解密&监控系统
- SRE Google 运维解密--管理
- 活动报名 | DevOps&SRE 超越传统运维之道(北京站)
- SRE Google 运维解密 具体实践一
- SRE Google 运维解密 具体实践二
- DevOps
- devops
- devops
- devops
- 数组和集合区别
- iOS笔记链接
- 做北京linux培训哪家靠谱
- 欢迎使用CSDN-markdown编辑器
- BeanPostProcessor and static BeanFactory Create
- Google SRE (DevOps)
- 不只是给面试加分 -- Java WeakReference的理解与使用
- SAP MM移动类型概念详述
- Eclipse Junit测试报initializationError错误
- windows和linux 下将tomcat注册为服务
- XMLHttpRequest对象解决中文乱码问题
- JVM Tool Interface JVM工具接口
- Unity3D -- 使用可移动图片作为3D背景
- 菜鸟之路【计算导论与C基础】练习2:计算概论第六周 B-05作业