400-888-5228

课程概述

本课程以国际权威机构 DevOps Institute 认证体系为基础,系统介绍了 SRE(Site Reliability Engineering,站点可靠性工程)的理念与实践方法。课程融合了 SRE Foundation 及 SRE Practitioner 的核心内容,结合云原生架构环境与真实企业案例,聚焦于提升服务可靠性、响应效率与系统弹性。

SRE 作为解决传统 Dev/Ops 团队分离带来冲突的现代工程实践模式,正日益成为大型组织数字化转型中的关键能力。通过对服务等级指标(SLI)、服务等级目标(SLO)、错误预算、可观测性、混沌工程、平台工程、分布式架构等核心内容的讲解与实战演练,本课程将帮助学员构建系统化的可靠性工程思维框架。

课程对象

  • 负责系统运维、站点可靠性保障的工程师或技术人员,他们需要通过学习提升系统可靠性管理能力;
  • 参与 DevOps 实践的团队成员,课程中 SRE 与 DevOps 的关系及协同方法对其工作有直接指导意义;
  • 从事 IT 架构设计、平台工程搭建的专业人员,可通过课程掌握云原生环境下的系统设计原则;
  • 企业中负责数字化转型相关技术工作的管理人员,能通过课程构建系统化的可靠性工程思维框架。

课程目标

学习完成后,学员将能够:

  1. 全面理解 SRE 的起源、核心原则与其在现代运维体系中的作用;
  2. 掌握 SRE 与 DevOps、ITIL 等框架的区别与互补关系;
  3. 理解并掌握服务等级目标(SLO)、服务等级指标(SLI)与错误预算的定义、制定与实施方法;
  4. 掌握消除琐事(Toil)、构建弹性系统与推动可观测性文化的实际操作方法;
  5. 理解平台工程、AI 运维(AIOps)、DataOps 等在 SRE 落地过程中的关键角色;
  6. 具备在分布式系统与零信任环境下进行系统设计与事件响应的能力;
  7. 运用混沌工程与非抽象大系统建模的方法提升架构可靠性;
  8. 能够在实际工作中推动 SRE 文化落地,提升组织可靠性水平。

课程收益

通过 3 天密集培训,学员将获得以下价值:

  • 系统掌握 SRE 全景知识体系:从理念、流程到工具,全面理解并掌握可靠性工程的核心知识与最佳实践。
  • 提升团队协作效率与系统可维护性:通过 SLO 工作坊与 Toil 管理方法,有效推动跨部门协同、减少重复劳动。
  • 构建稳定可扩展的系统设计能力:掌握云原生背景下的分布式系统设计原则,提升业务系统的弹性与稳定性。

课程时长3天

课程大纲

第一天第二天第三天
模块 1: SRE 概述
1.SRE 的定义和来历
2.探究 SRE 的发展历程和其在 IT 领域的演变。
3.分析 SRE 与 DevOps 之间的密切关系。
4.介绍 SRE 管理的核心体系。• SRE 的历史及其在谷歌的出现
• SRE 与 DevOps 和其他流行框架的相互关系
• SRE 背后的基本原则
• 服务水平目标(SLO)及其用户关注点
• 服务水平指标(SLI)和现代监控环境
• 错误预算和相关的错误预算政策
• 人力及其对组织生产力的影响
• 有助于消除琐事的实际步骤
• 可观察性,表明服务的健康状况
• SRE 工具、自动化技术和安全重要性
• 反脆弱性,我们对失效和失效测试的方法
• 引入 SRE 带来的组织影响
模块 3: SRE 的实践和流程
1.SRE 的实践和流程详解
2.深度解析 SRE 的九大实践,包括具体操作和案例研究。
3.探讨 SRE 的五大特征,并对比其与 ITIL 流程的不同之处。
4.分析实际的 SRE 参考案例,提供深入的研讨和实际应用的机会。如何在您的组织中成功实施
富有活力的 SRE 文化的实践观点;
SRE 的基本原则,了解什么不是反模式,以及如何意识到它们并避免发生;
引入 SRE 对组织的影响;
在分布式生态系统中提升 SLI 和 SLO 的艺术,并将错误预算的使用扩展到正常范围之外,以创
新和规避风险;
通过设计在分布式、零信任环境中构建安全性和弹性;
您如何实现全栈可观察性、分布式跟踪并实现可观察性驱动的开发文化?
使用人工智能管理数据,从被动到主动和预测性事件管理。另外,如何使用 DataOps 构建干净
的数据沿袭?
为什么平台工程在构建 SRE 文化的一致性和可预测性方面如此重要?
实施实用的混沌工程;
基于事件指挥框架的 SRE 的重大事件响应责任,以及非管理事件的剖析示例;
为什么 SRE 可以被认为是 DevOps 最纯粹的实现;
SRE 执行模型;
理解 SRE 的作用,理解为什么可靠性是每个人的问题;
模块 4: 工作坊引入 SLO 实施 SRE 艺术
1.引入 SLO 的实际工作坊,加深对运用核心概念的理解。
2.回顾 SRE 的核心概念,为深入的 SLO 实践打下基础。
3.定制 SLO 和 SLI 流程,包括用户旅程和系统边界的法则。
4.分组进行实际的 SLO 实战演练,加强团队合作和实际应用的能力。
模块 5: 云原生环境下的非抽象大系统设计
1.合理运用云基础设施的特性对业务系统进行设计与规划
2.深入探讨抽象系统设计和非抽象设计的概念。
3.讨论大规模业务系统的规划,强调设计决策对系统稳定性的影响。
4.探讨分布式架构和可恢复系统的设计原则。
5.结合课堂练习对设计概念进行实际运用,并进行综合总结。基于 AWS, Azure 和 Google 云环境的 SRE 实战。
模块 2: SRE 的核心基础
1.SRE 的五大核心基础
2.深入理解 SRE 的核心概念,重点关注 SLO 的实际应用。
3.实践中探讨 SRE 在监控告警方面的应用,突破与传统运维管理的区别。
4.探讨如何通过消除琐事和简化系统,摆脱繁琐的人工运维。
模块 6: 案例,综合答疑&总结
案例一, 某跨国银行 SRE 实战 案例 2, 某科技公司 SRE 实战 案例 3, 某政府部门 IT 的 SRE 实

回答学员提出的问题,深化对课程内容的理解,并进行全面总结,确保学员能够充分领会并应用
所学的关键概念。

 

为什么选择艾威

艾威培训是 PeopleCert 与 DevOps Institute 官方授权的培训与认证中心,具备国际权威认证资质。自 2003 年成立以来,艾威专注于 IT 管理与技术人才培养,已深耕培训行业 20 余年,服务超过 10,000 家企业客户,涵盖金融、互联网、制造、政府等多个行业。

我们不仅具备强大的讲师团队和完善的课程体系,更注重实战导向与企业落地效果,始终坚持“高标准、强落地、重转化”的交付理念,助力企业在数字化转型中构建核心竞争力。

培训咨询

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

同类课程推荐同类课程推荐
IT技术培训课程分类