400-888-5228

课程概述

SRE(Site Reliability Engineering,站点可靠性工程)基础课程是对一系列原则和实践的介绍,这些原则和实践可帮助组织可靠且经济地扩展关键服务。

引入SRE维度需要组织层面的重构、新的工程与自动化关注点,以及一系列全新的工作范式。

本课程重点介绍了SRE的发展历程及其未来方向,并通过真实案例和故事,使学员掌握在组织内部推动可靠性与稳定性的实践方法、工具与策略。课程结束后,学员将获得可落地的成果,如如何理解、设定和追踪服务级别目标(SLO)。

该课程由DevOps Institute开发,结合了SRE领域的核心资料、行业思想领袖的见解以及正在实践SRE的企业的最佳实践,旨在传授采纳SRE所需的核心理念与实操方法。

课程目标之一是帮助学习者顺利通过SRE Foundation认证考试。

课程对象

本课程面向以下专业人士:

  • 启动或领导服务可靠性提升工作的人员
  • 对现代IT领导力和组织变革方法感兴趣者
  • 业务经理
  • 业务相关干系人
  • 变革推动者
  • 咨询顾问
  • DevOps从业者
  • IT总监
  • IT经理
  • IT团队主管
  • 产品负责人
  • Scrum Master
  • 软件工程师
  • SRE工程师
  • 系统集成商
  • 工具供应商

课程目标

学员将实际理解以下内容:

  • SRE的历史及其在Google的起源
  • SRE与DevOps及其他流行框架的关系
  • SRE背后的核心原则
  • 服务级别目标(SLO)及其用户导向性
  • 服务级别指标(SLI)与现代监控体系
  • 错误预算与相关政策
  • 重复性劳动(Toil)及其对组织生产力的影响
  • 消除重复劳动的实际步骤
  • 可观测性及其作为服务健康度指标的作用
  • SRE工具、自动化技术及安全的重要性
  • 反脆弱性、对失败的应对方式及故障测试
  • 引入SRE对组织带来的影响

课程收益

  • 系统理解 SRE 的起源、核心原则、与 DevOps 等框架的关系,以及服务级别目标(SLO)、服务级别指标(SLI)、错误预算、重复性劳动(Toil)、可观测性、自动化、反脆弱性等关键概念与实践逻辑。
  • 掌握推动组织内部服务可靠性与稳定性的实践方法、工具及策略,包括消除重复性劳动的具体步骤、故障测试与应对方式、监控体系搭建等实操技能,能有效应对服务故障与提升服务健康度。
  • 获得 16 小时讲师授课与练习辅导,通过独特的实战练习强化应用能力,同时获取学员手册、示例文档、模板、工具等资料,助力将所学知识转化为实际工作成果(如设定和追踪 SLO)。
  • 通过考试可获得由 DevOps Institute 颁发的 SRE Foundation 认证证书,提升职业资质与行业认可度,助力在 IT 服务可靠性领域的职业发展。
  • 理解引入 SRE 对组织的影响及采纳模式,具备推动组织层面服务可靠性提升、促进 IT 领导力与组织变革的能力,适用于各类 IT 管理、技术及业务相关角色的工作需求。

课程时长2天

课程大纲

课程导入
课程目标
日程介绍
模块一:SRE原则与实践
什么是SRE?
SRE与DevOps的区别
SRE的原则与实践
模块二:服务级别目标与错误预算
服务级别目标(SLO)
错误预算
错误预算政策
模块三:减少重复劳动(Toil)
什么是Toil?
Toil的危害
如何减少Toil
模块四:监控与服务级别指标(SLI)
服务级别指标(SLI)
监控
可观测性
模块五:SRE工具与自动化
自动化定义
自动化的重点
自动化的层级结构
安全自动化
自动化工具
模块六:反脆弱性与从失败中学习
为什么要从失败中学习
反脆弱性的好处
改变组织结构的平衡
模块七:SRE的组织影响
为什么组织采用SRE
SRE采纳模式
值班支持要素
无责审查(Blameless Post-Mortems)
SRE与规模扩展
模块八:SRE与其他框架,以及未来展望
SRE与其他框架的关系
SRE的未来

为什么选择艾威

艾威培训是PeopleCert官方授权的培训与认证中心,具备国际权威认证资质。自2003年成立以来,艾威专注于IT管理与技术人才培养,已深耕培训行业20余年,服务超过10,000家企业客户,涵盖金融、互联网、制造、政府等多个行业。

我们不仅具备强大的讲师团队和完善的课程体系,更注重实战导向与企业落地效果,始终坚持“高标准、强落地、重转化”的交付理念,助力企业在数字化转型中构建核心竞争力。

培训咨询

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

同类课程推荐同类课程推荐
IT技术培训课程分类