课程概述
SRE(站点可靠性工程)实践者课程介绍了在组织中如何以经济和可靠的方式扩展服务的方法。课程探讨了如何通过设计上的韧性、自动化以及闭环修复机制,提升敏捷性、跨职能协作能力和服务健康透明度。
本课程旨在使学员掌握相关实践、方法和工具,以便在组织内部推动可靠性工作,内容结合真实场景和案例。课程结束后,学员可以带回可落地的成果,例如:
- 实施符合自己组织背景的SRE模型
- 构建分布式系统中的高级可观测性
- 基于设计实现服务韧性
- 使用SRE实践进行高效的事件响应
该课程结合了核心SRE知识来源、领域专家观点及已采用SRE的企业实践经验,旨在教授采纳SRE所需的核心理念与方法。
本课程将帮助学员顺利通过SRE Practitioner认证考试。
课程对象
本课程适用于以下专业人士:
- 专注于大规模服务扩展性与可靠性的人士
- 对现代IT领导力与组织变革方法感兴趣者
- 业务经理
- 企业干系人
- 变革推动者
- 咨询顾问
- DevOps从业者
- IT总监
- IT经理
- IT团队负责人
- 产品负责人
- Scrum Master
- 软件工程师
- SRE工程师
- 系统集成商
- 工具供应商
课程目标
课程结束时,学员将能够:
- 实际理解如何在组织中成功构建SRE文化
- 掌握SRE的核心原则,了解哪些是错误实践(反模式)以及如何避免
- 理解引入SRE对组织带来的影响
- 精通在分布式生态中定义SLI和SLO,并超越常规使用错误预算以推动创新和规避风险
- 在零信任环境中,通过架构设计实现安全性与韧性
- 实现全栈可观测性、分布式追踪,并推动“可观测性驱动开发”文化
- 运用AI优化数据处理,从被动转向主动、预测式事件管理,使用DataOps构建清晰的数据血缘
- 了解平台工程在构建一致性与可预测性SRE文化中的重要性
- 实施实际的混沌工程
- 理解基于事件指挥框架的重大事件响应职责,以及未管理事件的典型结构
- 理解为何SRE可视为DevOps最纯粹的实践形式
- 掌握SRE执行模型
- 理解SRE的角色及“可靠性是每个人的责任”这一理念
- 学习SRE成功案例中的经验
课程收益
- 掌握在组织内成功构建 SRE 文化的方法,理解 “可靠性是每个人的责任” 的核心理念,推动跨职能协作与服务健康透明度提升。
- 精通 SRE 核心原则及反模式识别与规避技巧,明确引入 SRE 对组织的影响,为 SRE 落地奠定认知基础。
- 具备在分布式生态中定义 SLI(服务级别指标)和 SLO(服务级别目标)的能力,能通过错误预算平衡创新与风险,优化团队决策与沟通效率。
- 学会从架构设计层面构建安全、可靠、韧性强的系统,涵盖容错、安全、韧性、可扩展性、性能等多维度设计要点,保障数据安全与隐私。
- 实现全栈可观测性,掌握分布式追踪、合成监控、终端用户监控等技术,推动 “可观测性驱动开发” 文化,精准把握系统运行状态。
- 能够运用 AI 技术优化数据处理,从被动响应转向主动、预测式事件管理,借助 DataOps 构建清晰数据血缘,提升事件管理效率。
- 理解平台工程在 SRE 中的重要性,掌握 AIOps 实施方法与成效评估指标,解决组织碎片化、不一致性问题,增强系统韧性。
- 具备实施混沌工程的能力,通过实战演练提升系统抗故障能力,识别并强化服务链路中的薄弱环节。
- 明确重大事件响应职责与框架,掌握基于事件指挥框架的响应流程,降低未管理事件的负面影响。
- 深入理解 SRE 与 DevOps 的关系,掌握 SRE 执行模型及角色定位,借鉴成功案例经验,推动组织 SRE 实践落地,实现服务可靠且经济的扩展。
- 获得通过 SRE Practitioner 认证考试的知识储备,助力获取权威认证,提升个人在 SRE 及相关领域的专业竞争力。
课程时长3天
课程大纲
模块1:SRE反模式(Anti-patterns) 将运维、DevOps或开发部门简单重命名为SRE 用户在你之前发现问题 “测到边缘就好” 假阳性比没有警报更糟 配置管理陷阱 群体应急响应混乱(“狗堆”效应) 点状修复(Patch Fixing) 把关人模式 安全失败设计,真的吗? | 模块2:SLO是客户满意度的代理指标 从用户视角定义可衡量服务可靠性的SLI 在分布式系统中设定正确SLI的系统边界 利用错误预算推动团队更好地沟通与决策 服务可靠性取决于服务图中最弱的一环 使用第三方服务时的错误阈值设定 |
模块3:构建安全与可靠的系统 SRE在构建安全可靠系统中的角色 为架构变化而设计 容错设计 安全性设计 韧性设计 可扩展性设计 性能设计 可靠性设计 数据安全与隐私保障 | 模块4:全栈可观测性 现代应用复杂且难以预测 “变慢即等于宕机” 可观测性的三大支柱 实现合成监控与终端用户监控 可观测性驱动开发 分布式追踪 监控的角色变化 使用库与代理实现监控指标采集 |
模块5:平台工程与AIOps 平台视角有助于解决组织碎片化、不一致性和不可预测性问题 如何使用AIOps提升系统韧性 DataOps在数据管理中的作用 实施AIOps的简易方法 AIOps成效的评估指标 | 模块6:SRE与事件响应管理 SRE在事件响应中的关键职责 DevOps、SRE与ITIL的关系 OODA循环在SRE事件响应中的应用 闭环修复及其优势 群体协作响应(Swarming) 利用AI/ML提升事件管理效率 |
模块7:混沌工程 如何应对复杂性 混沌工程的定义 混沌工程快速事实 “混沌猴”起源 谁在使用混沌工程? 混沌工程的误区 混沌实验设计 GameDay实战演练 安全混沌工程 推荐资源 | 模块8:SRE是DevOps最纯粹的实现形式 SRE的关键原则 SRE帮助提升全产品生命周期的可靠性 衡量SRE成功的指标 目标领域的选择方法 SRE执行模型 文化与行为技能是关键 SRE案例研究 |
为什么选择艾威
艾威培训是PeopleCert官方授权的培训与认证中心,具备国际权威认证资质。自2003年成立以来,艾威专注于IT管理与技术人才培养,已深耕培训行业20余年,服务超过10,000家企业客户,涵盖金融、互联网、制造、政府等多个行业。
我们不仅具备强大的讲师团队和完善的课程体系,更注重实战导向与企业落地效果,始终坚持“高标准、强落地、重转化”的交付理念,助力企业在数字化转型中构建核心竞争力。
培训咨询