SER 团队职责:
- 可用性改进
- 延迟做强化
- 性能优化
- 效率优化
- 变更优化
- 变更管理
- 监控
- 紧急事务处理
- 容量规划与管理
时间分配: 运维工作限制在50%以内, SRE 团队应该将剩余时间在研发项目上。
将生产环境中发现Bug 和产生的工单转给研发管理人员中去分配, 或者将开发团队成员加入on-call 体系中共同承担轮值压力
产品事故都应该对应的事后总结, 无论有没有触发报警。
监控系统
SER 团队监控服务质量和可用性的一个主要手段。
监控系统的设计策略是针对摸个特定的情况或者监控值, 一旦出现情况或者监控值超过阈值就触发E-mail 报警。
时间: 2024-12-12 17:23:35