课程概述
本课程以国际权威机构 DevOps Institute 认证体系为基础,系统介绍了 SRE(Site Reliability Engineering,站点可靠性工程)的理念与实践方法。课程融合了 SRE Foundation 及 SRE Practitioner 的核心内容,结合云原生架构环境与真实企业案例,聚焦于提升服务可靠性、响应效率与系统弹性。
SRE 作为解决传统 Dev/Ops 团队分离带来冲突的现代工程实践模式,正日益成为大型组织数字化转型中的关键能力。通过对服务等级指标(SLI)、服务等级目标(SLO)、错误预算、可观测性、混沌工程、平台工程、分布式架构等核心内容的讲解与实战演练,本课程将帮助学员构建系统化的可靠性工程思维框架。
课程对象
- 负责系统运维、站点可靠性保障的工程师或技术人员,他们需要通过学习提升系统可靠性管理能力;
- 参与 DevOps 实践的团队成员,课程中 SRE 与 DevOps 的关系及协同方法对其工作有直接指导意义;
- 从事 IT 架构设计、平台工程搭建的专业人员,可通过课程掌握云原生环境下的系统设计原则;
- 企业中负责数字化转型相关技术工作的管理人员,能通过课程构建系统化的可靠性工程思维框架。
课程目标
学习完成后,学员将能够:
- 全面理解 SRE 的起源、核心原则与其在现代运维体系中的作用;
- 掌握 SRE 与 DevOps、ITIL 等框架的区别与互补关系;
- 理解并掌握服务等级目标(SLO)、服务等级指标(SLI)与错误预算的定义、制定与实施方法;
- 掌握消除琐事(Toil)、构建弹性系统与推动可观测性文化的实际操作方法;
- 理解平台工程、AI 运维(AIOps)、DataOps 等在 SRE 落地过程中的关键角色;
- 具备在分布式系统与零信任环境下进行系统设计与事件响应的能力;
- 运用混沌工程与非抽象大系统建模的方法提升架构可靠性;
- 能够在实际工作中推动 SRE 文化落地,提升组织可靠性水平。
课程收益
通过 3 天密集培训,学员将获得以下价值:
- 系统掌握 SRE 全景知识体系:从理念、流程到工具,全面理解并掌握可靠性工程的核心知识与最佳实践。
- 提升团队协作效率与系统可维护性:通过 SLO 工作坊与 Toil 管理方法,有效推动跨部门协同、减少重复劳动。
- 构建稳定可扩展的系统设计能力:掌握云原生背景下的分布式系统设计原则,提升业务系统的弹性与稳定性。
课程时长3天
课程大纲
第一天 | 第二天 | 第三天 |
模块 1: SRE 概述 1.SRE 的定义和来历 2.探究 SRE 的发展历程和其在 IT 领域的演变。 3.分析 SRE 与 DevOps 之间的密切关系。 4.介绍 SRE 管理的核心体系。• SRE 的历史及其在谷歌的出现 • SRE 与 DevOps 和其他流行框架的相互关系 • SRE 背后的基本原则 • 服务水平目标(SLO)及其用户关注点 • 服务水平指标(SLI)和现代监控环境 • 错误预算和相关的错误预算政策 • 人力及其对组织生产力的影响 • 有助于消除琐事的实际步骤 • 可观察性,表明服务的健康状况 • SRE 工具、自动化技术和安全重要性 • 反脆弱性,我们对失效和失效测试的方法 • 引入 SRE 带来的组织影响 | 模块 3: SRE 的实践和流程 1.SRE 的实践和流程详解 2.深度解析 SRE 的九大实践,包括具体操作和案例研究。 3.探讨 SRE 的五大特征,并对比其与 ITIL 流程的不同之处。 4.分析实际的 SRE 参考案例,提供深入的研讨和实际应用的机会。如何在您的组织中成功实施 富有活力的 SRE 文化的实践观点; SRE 的基本原则,了解什么不是反模式,以及如何意识到它们并避免发生; 引入 SRE 对组织的影响; 在分布式生态系统中提升 SLI 和 SLO 的艺术,并将错误预算的使用扩展到正常范围之外,以创 新和规避风险; 通过设计在分布式、零信任环境中构建安全性和弹性; 您如何实现全栈可观察性、分布式跟踪并实现可观察性驱动的开发文化? 使用人工智能管理数据,从被动到主动和预测性事件管理。另外,如何使用 DataOps 构建干净 的数据沿袭? 为什么平台工程在构建 SRE 文化的一致性和可预测性方面如此重要? 实施实用的混沌工程; 基于事件指挥框架的 SRE 的重大事件响应责任,以及非管理事件的剖析示例; 为什么 SRE 可以被认为是 DevOps 最纯粹的实现; SRE 执行模型; 理解 SRE 的作用,理解为什么可靠性是每个人的问题; | 模块 4: 工作坊引入 SLO 实施 SRE 艺术 1.引入 SLO 的实际工作坊,加深对运用核心概念的理解。 2.回顾 SRE 的核心概念,为深入的 SLO 实践打下基础。 3.定制 SLO 和 SLI 流程,包括用户旅程和系统边界的法则。 4.分组进行实际的 SLO 实战演练,加强团队合作和实际应用的能力。 |
模块 5: 云原生环境下的非抽象大系统设计 1.合理运用云基础设施的特性对业务系统进行设计与规划 2.深入探讨抽象系统设计和非抽象设计的概念。 3.讨论大规模业务系统的规划,强调设计决策对系统稳定性的影响。 4.探讨分布式架构和可恢复系统的设计原则。 5.结合课堂练习对设计概念进行实际运用,并进行综合总结。基于 AWS, Azure 和 Google 云环境的 SRE 实战。 |
模块 2: SRE 的核心基础 1.SRE 的五大核心基础 2.深入理解 SRE 的核心概念,重点关注 SLO 的实际应用。 3.实践中探讨 SRE 在监控告警方面的应用,突破与传统运维管理的区别。 4.探讨如何通过消除琐事和简化系统,摆脱繁琐的人工运维。 | 模块 6: 案例,综合答疑&总结 案例一, 某跨国银行 SRE 实战 案例 2, 某科技公司 SRE 实战 案例 3, 某政府部门 IT 的 SRE 实 战 回答学员提出的问题,深化对课程内容的理解,并进行全面总结,确保学员能够充分领会并应用 所学的关键概念。 |
为什么选择艾威
艾威培训是 PeopleCert 与 DevOps Institute 官方授权的培训与认证中心,具备国际权威认证资质。自 2003 年成立以来,艾威专注于 IT 管理与技术人才培养,已深耕培训行业 20 余年,服务超过 10,000 家企业客户,涵盖金融、互联网、制造、政府等多个行业。
我们不仅具备强大的讲师团队和完善的课程体系,更注重实战导向与企业落地效果,始终坚持“高标准、强落地、重转化”的交付理念,助力企业在数字化转型中构建核心竞争力。
培训咨询