Big Data on AWS 是什么?
一门面向实战的 AWS 大数据全栈课程,涵盖数据摄取、存储、处理、分析与可视化全流程。
端到端大数据能力
从数据流摄入(Kinesis)、存储(S3/DynamoDB)、处理(EMR+Hadoop/Spark)到分析(Redshift/Athena)与可视化(QuickSight),完整覆盖 AWS 大数据技术栈。
7 个动手实验室
每个模块配套动手实验,使用真数据(Apache 日志、NY Taxi 数据等)进行流式处理、Hive/Pig 编程、Spark 内存分析、数据可视化等实战操作。
为什么学习 Big Data on AWS?
云计算与大数据深度融合已成为企业数字化转型的核心驱动力,掌握 AWS 大数据技术栈是数据从业者的关键竞争力。
数据人才的核心技能
AWS 是全球市场份额_的云平台,掌握 EMR、Redshift、Kinesis 等大数据服务能力,显著提升数据工程师、架构师的薪酬竞争力。
降本增效的利器
相比自建 Hadoop 集群,AWS 托管的 EMR 可弹性伸缩、按需付费,帮助企业将大数据 TCO 降低 50% 以上,同时获得企业级安全与合规能力。
流批一体实战能力
课程覆盖批处理(EMR+Hive)、流处理(Kinesis)、交互式分析(Athena)、数据仓库(Redshift)和可视化(QuickSight),构建完整的大数据工程思维。
谁适合学习 Big Data on AWS?
本课程面向已具备基础 AWS 与大数据知识的专业人士,特别是负责设计和实施大数据解决方案的技术骨干。
解决方案架构师
负责为企业设计大数据平台架构,需要理解 AWS 各大数据服务的适用场景、成本模型和安全良好实践。
数据科学家 / 数据分析师
有兴趣深入了解 AWS 上大数据解决方案背后的服务和架构模式,提升数据建模与分析效率。
大数据工程师
已有 Hadoop 经验,希望将技能迁移到云端,学习 Amazon EMR 上的 Hive、Pig、Spark 等托管服务。
典型学习场景
云迁移
将本地 Hadoop 集群迁移至 Amazon EMR
实时分析
利用 Kinesis 构建流式数据处理管道
数据湖
基于 S3+Athena 搭建低成本数据湖
可视化
Redshift + QuickSight 数据仓库与BI看板
课程大纲 · 3 天沉浸式学习
三天循序渐进,从大数据基础概念入手,逐步深入 Hadoop 生态、流式处理、数据仓库与安全管理。
Day 1 大数据基础、流式处理与存储方案
大数据概述 · 获取与传输 · Amazon Kinesis 流式处理 · 存储解决方案(S3/DynamoDB)· 数据处理与分析(Athena)
Day 2 Apache Hadoop 与 Amazon EMR 深度实战
Hadoop 与 EMR 架构 · Hive/Pig/Streaming 编程框架 · Hue Web 界面 · Apache Spark 内存分析
Day 3 Redshift、可视化与大数据安全治理
Amazon Redshift 数据仓库 · 可视化与编排(QuickSight/Spotfire/Data Pipeline)· 费用管理 · 安全部署 · 大数据设计模式
详细课程内容
本课程依据 AWS 官方培训大纲设计,涵盖 Big Data Technology Fundamentals 所有核心模块,配套 7 个动手实验室,使用真实数据集进行实操训练。
Day 1:大数据基础、流式处理与存储方案
1. 大数据概述
- 大数据的定义、特征与业务价值
- AWS 大数据服务全景概览
- 大数据解决方案的架构模式
2. 大数据获取和传输
- 数据摄取方式与 AWS 数据传输服务
- AWS Direct Connect / Snowball / Kinesis Data Firehose
- 数据压缩与优化策略
3. 大数据流式处理和 Amazon Kinesis
- 流式处理 vs 批处理的核心区别
- Amazon Kinesis Data Streams 架构与 Shard 管理
- Kinesis Data Analytics 实时分析
- 动手实验室 1:使用 Amazon Kinesis 流式处理和分析 Apache 服务器日志数据
4. 大数据存储解决方案
- Amazon S3 作为数据湖基础
- Amazon DynamoDB 的 NoSQL 存储模式
- 存储分层与生命周期管理
5. 大数据处理和分析
- Amazon Athena 的 Serverless 交互式查询
- 分区、压缩与性能优化
- 动手实验室 2:使用 Amazon Athena 查询 Amazon S3 的日志数据
Day 2:Apache Hadoop 与 Amazon EMR 深度实战
1. Apache Hadoop 和 Amazon EMR
- Hadoop 核心组件:HDFS、MapReduce、YARN
- Amazon EMR 集群架构与节点类型
- EMR 启动、配置与管理
- 动手实验室 3:在 Amazon DynamoDB 上存储并查询数据
2. 使用 Amazon EMR
- EMR 集群生命周期管理
- EMRFS 与 S3 的一致性实现
- 竞价实例与成本优化策略
3. Hadoop 编程框架
- Apache Hive:SQL-on-Hadoop 数据仓库
- Apache Pig:数据流脚本语言
- Hadoop Streaming:支持任意编程语言
- 动手实验室 4:在 Amazon EMR 上利用 Hive 处理服务器日志
4. Amazon EMR 上的 Web 界面
- Hue(Hadoop User Experience)介绍
- Hue 中的 Hive 编辑器、文件浏览器、工作流
- 动手实验室 5:在 Amazon EMR 上的 Hue 中运行 Pig 脚本
5. Amazon EMR 上的 Apache Spark
- Spark 架构:Driver、Executor、RDD/DataFrame
- Spark SQL、MLlib、GraphX 组件介绍
- EMR 上 Spark 的内存调优与良好实践
- 动手实验室 6:在 Amazon EMR 上使用 Spark 处理 NY Taxi 数据
Day 3:Redshift、可视化与大数据安全治理
1. Amazon Redshift 和大数据
- Redshift 列式存储架构与查询优化
- 分布键、排序键的设计策略
- Redshift Spectrum:直接查询 S3 数据湖
- 与 EMR 的集成场景
2. 大数据的可视化及编制
- Amazon QuickSight:Serverless BI 可视化
- SPICE 引擎与仪表板设计
- AWS Data Pipeline:大数据工作流编排
- 动手实验室 7:使用 TIBCO Spotfire 可视化数据
3. 管理大数据费用
- AWS 大数据服务的计费模型详解
- 成本监控与预算告警(AWS Budgets)
- 竞价实例、预留实例的省钱策略
- 数据生命周期管理与归档方案
4. 保护您的 Amazon 部署
- IAM 角色与大数据服务权限管控
- VPC 内 EMR 集群网络隔离
- 静态加密(KMS/HSM)与传输加密(TLS)
- 审计日志(CloudTrail)与合规性检查
5. 大数据设计模式
- Lambda 架构与 Kappa 架构在 AWS 上的实现
- 事件驱动的大数据处理流水线
- 多租户数据平台设计考量
- 灾难恢复与高可用架构
授课老师介绍
艾威 AWS 讲师团队拥有丰富的云计算与大数据实战经验,确保学员不仅学得会、更用得上。
讲师
艾威 AWS 认证讲师团队
艾威 AWS 讲师团队由多位 AWS Authorized Instructor(AAI)组成,长期为全球 500 强企业提供 AWS 官方培训。讲师均持有 AWS Solutions Architect Professional、AWS Big Data Specialty 等高级认证,具备扎实的理论功底与丰富的项目实战经验,曾主导多个企业级数据湖、流处理平台和云原生数据仓库的建设与迁移项目。
- 专长领域:AWS 大数据架构、Hadoop/Spark 生态、数据仓库设计、流式处理
- 授课风格:理论与实践并重,每个模块均配备动手实验室,以真实数据集驱动教学
- 企业服务:累计培训超 200 家企业客户,涵盖金融、互联网、制造等行业
Big Data on AWS 近期开班计划
艾威培训每月滚动开班,支持公开课与企业内训两种模式,灵活适配您的学习需求。
每月一期(详询课程顾问)
小班教学,满 6 人即开班。3 天面授/直播同步授课,含全部 7 个动手实验室,提供课程回放与实验环境。具体开班日期请咨询课程顾问获取近期排期。
可按企业时间定制
支持企业内训定制,可根据团队技术栈和业务场景调整课程内容与实验案例。提供课前技术评估、课中辅导、课后答疑全流程服务,确保培训效果落地。
为什么选择艾威培训?
艾威培训成立于 2003 年,深耕 IT 培训领域 20 余年,是众多全球知名厂商认可的培训机构。
官方课程体系
艾威培训是 AWS 认可的培训合作伙伴,课程内容与 AWS 官方大纲同步更新,确保学员学到前沿、准确的 AWS 技术知识。
7 个动手实验室
每个核心模块都配套动手实验,在真实的 AWS 环境中操作 Kinesis、EMR、Redshift 等服务,课后即可应用于实际工作。
企业信赖之选
自 2003 年成立以来,已服务超过 5000 家企业客户,累计培训学员超 10 万人次,在 IT 培训领域拥有卓越口碑。
学员真实收获
以下是来自往期学员的真实反馈,分享他们在 Big Data on AWS 课程中的学习收获。
"从本地 Hadoop 到 EMR 的无缝迁移"
课程帮我厘清了本地 Hadoop 与 EMR 的差异点,特别是 EMRFS 和 S3 的集成方式,让我们团队的迁移项目节省了至少一个月的评估时间。
"Athena + QuickSight 改变了我的工作方式"
以前要等数仓跑批才能出报表,现在通过 Athena 直接查 S3,再接入 QuickSight 构建仪表板,分析效率提升了数倍。
"Spark on EMR 调优值回学费"
讲师对 Spark 内存管理和 EMR 集群调优的讲解非常深入,实操中处理 NY Taxi 数据集时,性能比优化前快了 3 倍。
常见问题 FAQ
以下是关于 Big Data on AWS 课程的常见问题,帮助您快速了解课程详情。
Q1:这门课程需要什么基础?
建议学员基本熟悉大数据技术(Hadoop、MapReduce、HDFS、SQL/NoSQL),具有核心 AWS 服务和公有云实施经验。建议先完成 AWS Technical Essentials 和 Big Data Technology Fundamentals 网络培训。
Q2:课程是中文还是英文授课?
课程材料为英文(AWS 官方教材),授课语言可根据学员需求选择中文或英文。动手实验室环境为英文界面。
Q3:动手实验室需要自带 AWS 账号吗?
不需要。艾威将提供课程专用 AWS 实验账号,包含所有实验所需的资源和配额,学员只需自带笔记本电脑和浏览器即可。
Q4:学完这门课程能考 AWS Big Data Specialty 认证吗?
本课程内容覆盖 AWS Certified Data Analytics - Specialty 认证考试的核心知识点,但考试仍需额外复习备考。课程可为您的认证之路打下坚实基础。
Q5:课程中会使用哪些 AWS 服务?
本课程深入讲解 Amazon EMR、Redshift、Kinesis、Athena、QuickSight、DynamoDB、S3、Data Pipeline 等核心大数据服务,覆盖数据摄取、存储、处理、分析和可视化全流程。
Q6:线上直播课与面授课内容一致吗?
完全一致。线上直播课同样包含全部动手实验室和讲师实时辅导,我们会提供稳定的云端实验环境,确保远程学员获得同样的学习体验。
Q7:3天课程能否消化这么多内容?
课程设计经过优化,Day 1 打基础、Day 2 深挖 EMR+Hadoop、Day 3 聚焦数据仓库与安全。每半天理论+实验交替进行,确保知识当堂消化。课后还提供录播回放供复习。
Q8:课程结业后有证书吗?
完成全部课程内容后,学员将获得艾威培训颁发的 Big Data on AWS 结业证书,可作为继续教育学时证明。
Q9:企业内训如何定制?
企业内训可根据团队技术栈定制课程内容与实验案例,支持现场/远程/混合模式。请联系课程顾问获取定制方案与报价。
Q10:课程实验数据是否与真实业务场景一致?
是的。实验使用 Apache 服务器日志、NY Taxi 公开数据集等真实数据,模拟企业大数据处理的典型场景,确保技能可直接迁移到实际工作。
页面信息更新与说明
本页面蕞近更新时间:2026-07-03
本页面围绕 Big Data on AWS 课程关键词整理,涵盖 Amazon EMR、Redshift、Kinesis、Athena、QuickSight、Hadoop、Spark 等 AWS 大数据服务的课程内容与实验室安排。
