400-888-5228

课程概述

本课程以国际权威机构 DevOps Institute 认证体系为基础,系统介绍了SRE(Site Reliability Engineering,站点可靠性工程)的理念与实践方法。课程融合了SRE Foundation及SRE Practitioner的核心内容,结合云原生架构环境与真实企业案例,聚焦于提升服务可靠性、响应效率与系统弹性。

SRE作为解决传统Dev/Ops团队分离带来冲突的现代工程实践模式,正日益成为大型组织数字化转型中的关键能力。通过对服务等级指标(SLI)、服务等级目标(SLO)、错误预算、可观测性、混沌工程、平台工程、分布式架构等核心内容的讲解与实战演练,本课程将帮助学员构建系统化的可靠性工程思维框架。

课程对象

  • 系统运维工程师:需提升系统可靠性管理能力,掌握 SRE 核心方法与工具,优化日常运维流程的从业人员。
  • 开发工程师(尤其是分布式系统开发):希望理解可靠性设计原则,在开发过程中融入 SRE 理念,提升系统弹性的技术人员。
  • 技术团队负责人 / 架构师:负责推动组织技术体系优化,需要构建系统化可靠性工程思维,主导 SRE 文化落地的管理者或技术决策者。
  • DevOps 工程师:需深入理解 SRE 与 DevOps 的协同关系,通过 SLO 管理、Toil 消除等方法提升跨部门协作效率的从业人员。
  • IT 运维管理人员:关注系统稳定性与可扩展性,需要通过 SRE 实践提升组织整体可靠性水平,协调资源解决复杂运维问题的管理者。
  • 对 SRE 领域感兴趣,希望系统学习站点可靠性工程理念与实践,助力职业发展的 IT 技术从业者

课程目标

  1. 全面理解SRE的起源、核心原则与其在现代运维体系中的作用;
  2. 掌握SRE与DevOps、ITIL等框架的区别与互补关系;
  3. 理解并掌握服务等级目标(SLO)、服务等级指标(SLI)与错误预算的定义、制定与实施方法;
  4. 掌握消除琐事(Toil)、构建弹性系统与推动可观测性文化的实际操作方法;
  5. 理解平台工程、AI运维(AIOps)、DataOps等在SRE落地过程中的关键角色;
  6. 具备在分布式系统与零信任环境下进行系统设计与事件响应的能力;
  7. 运用混沌工程与非抽象大系统建模的方法提升架构可靠性;
  8. 能够在实际工作中推动SRE文化落地,提升组织可靠性水平。

课程收益

通过3天密集培训,学员将获得以下价值:

  • 系统掌握SRE全景知识体系:从理念、流程到工具,全面理解并掌握可靠性工程的核心知识与最佳实践。
  • 提升团队协作效率与系统可维护性:通过SLO工作坊与Toil管理方法,有效推动跨部门协同、减少重复劳动。
  • 构建稳定可扩展的系统设计能力:掌握云原生背景下的分布式系统设计原则,提升业务系统的弹性与稳定性。

课程时长3天

课程大纲

第一天
模块 1: SRE 概述
1.SRE 的定义和来历
2.探究SRE的发展历程和其在IT领域的演变。
3.分析SRE与DevOps之间的密切关系。
4.介绍SRE管理的核心体系。• SRE的历史及其在谷歌的出现
• SRE与DevOps和其他流行框架的相互关系
• SRE背后的基本原则
• 服务水平目标(SLO)及其用户关注点
• 服务水平指标(SLI)和现代监控环境
• 错误预算和相关的错误预算政策
• 人力及其对组织生产力的影响
• 有助于消除琐事的实际步骤
• 可观察性,表明服务的健康状况
• SRE工具、自动化技术和安全重要性
• 反脆弱性,我们对失效和失效测试的方法
• 引入SRE带来的组织影响
模块 2: SRE 的核心基础
1.SRE的五大核心基础
2.深入理解SRE的核心概念,重点关注SLO的实际应用。
3.实践中探讨SRE在监控告警方面的应用,突破与传统运维管理的区别。
4.探讨如何通过消除琐事和简化系统,摆脱繁琐的人工运维。
第二天
模块 3: SRE 的实践和流程
1.SRE的实践和流程详解
2.深度解析SRE的九大实践,包括具体操作和案例研究。
3.探讨SRE的五大特征,并对比其与ITIL流程的不同之处。
4.分析实际的SRE参考案例,提供深入的研讨和实际应用的机会。如何在您的组织中成功实施富有活力的SRE文化的实践观点;
SRE的基本原则,了解什么不是反模式,以及如何意识到它们并避免发生;
引入SRE对组织的影响;
在分布式生态系统中提升SLI和SLO的艺术,并将错误预算的使用扩展到正常范围之外,以创新和规避风险;
通过设计在分布式、零信任环境中构建安全性和弹性;
您如何实现全栈可观察性、分布式跟踪并实现可观察性驱动的开发文化?
使用人工智能管理数据,从被动到主动和预测性事件管理。另外,如何使用DataOps构建干净的数据沿袭?
为什么平台工程在构建SRE文化的一致性和可预测性方面如此重要?
实施实用的混沌工程;
基于事件指挥框架的SRE的重大事件响应责任,以及非管理事件的剖析示例;
为什么SRE可以被认为是DevOps最纯粹的实现;
SRE执行模型;
理解SRE的作用,理解为什么可靠性是每个人的问题;
第三天
模块 4: 工作坊引入SLO实施 SRE 艺术
1.引入SLO的实际工作坊,加深对运用核心概念的理解。
2.回顾SRE的核心概念,为深入的SLO实践打下基础。
3.定制SLO和SLI流程,包括用户旅程和系统边界的法则。
4.分组进行实际的SLO实战演练,加强团队合作和实际应用的能力。
模块 5: 云原生环境下的非抽象大系统设计
1.合理运用云基础设施的特性对业务系统进行设计与规划
2.深入探讨抽象系统设计和非抽象设计的概念。
3.讨论大规模业务系统的规划,强调设计决策对系统稳定性的影响。
4.探讨分布式架构和可恢复系统的设计原则。
5.结合课堂练习对设计概念进行实际运用,并进行综合总结。基于AWS, Azure和Google云环境的SRE实战。
模块 6: 案例,综合答疑&总结
案例一, 某跨国银行SRE实战 案例2, 某科技公司SRE实战 案例3, 某政府部门IT的SRE实战
回答学员提出的问题,深化对课程内容的理解,并进行全面总结,确保学员能够充分领会并应用所学的关键概念。

为什么选择艾威

艾威培训是PeopleCert与DevOps Institute官方授权的培训与认证中心,具备国际权威认证资质。自2003年成立以来,艾威专注于IT管理与技术人才培养,已深耕培训行业20余年,服务超过10,000家企业客户,涵盖金融、互联网、制造、政府等多个行业。

我们不仅具备强大的讲师团队和完善的课程体系,更注重实战导向与企业落地效果,始终坚持“高标准、强落地、重转化”的交付理念,助力企业在数字化转型中构建核心竞争力。

培训咨询

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

同类课程推荐同类课程推荐
IT技术培训课程分类