给中小型运维团队的建议

来源：互联网发布：初中数学网络研讨编辑：程序博客网时间：2024/05/16 17:21

作者：Li Gong
链接：https://www.zhihu.com/question/55300424/answer/143878900

如何做得更好

GitLab 在事故报告之后附上了内部总结的若干 TODO 事项，对于其它流程不够完备的中小型团队来说，可以考虑同样做一遍自查。以下是我个人的一些建议：

1、审核所有数据的备份方案，备份频率如何，备份数据放在哪里，保留多久。
2、对于云服务自带的镜像备份等服务，确认是否正确的打开和设置
3、对于自行搭建的备份方案，确认
- 是否覆盖了所有重要数据
- 是否还在正常工作，考虑设置相关 Monitoring 和 Alert
- 相关的 script 和 configuration 进入源码管理
- 最终备份文件考虑存储不止一份（本地、不同的云服务商），使用云服务时最好使用单独的文件存储服务，而非直接放置在VM镜像内
4、定期做灾备演习，检验是否可以正确从备份中恢复，以及此过程需要多少时间和资源。
5、将灾备流程文档化，日常服务器维护流程中的注意事项也写成 checklist（或脚本化）。
6、降低 Production 环境的误操作可能
- 提倡 IAC （Infrastructure as Code）的最佳实践
- 深夜等工作时间外服务器出现状况时，优先考虑基于 CI 的 rollback 等自动化操作，高风险的人工操作尽量放在工作时间，有其它同事可以监督或者支援
- 考虑在 Production 环境的 CLI 界面中增加更多防呆提示（比如设置不同颜色，对于 rm 命令使用 alias 增加保护性检查等）
7、今天数据库运维仍然是一项比想象中更困难的任务，即使对于 GitLab 这样的成熟团队也是如此。对于没有专职 DBA 的创业公司来说，直接使用云服务商提供的数据库服务可能更为安全高效。

阅读全文

0 0