400-888-5228

课程介绍:

本课程是世界上第一Spark企业级最佳实践课程,课程包含:

Spark的架构设计;

Spark编程模型;

Spark内核框架源码剖析;

Spark的广播变量与累加器;

Shark的原理和使用;

Spark的机器学习;

Spark的图计算GraphX;

Spark SQL;

Spark实时流处理;

Spark程序的测试;

Spark的优化;

Spark on Yarn;

JobServer;

最后以一个商业级别的Spark案例为基础,实战展示商业级别Spark项目的架构设计、实现和优化;

 

课程时长:

3天

课程对象:

1,云计算大数据从业者;

2,Hadoop使用者;

3,系统架构师、系统分析师、高级程序员、资深开发人员;

4,牵涉到大数据处理的数据中心运行、规划、设计负责人;

5,政府机关,金融保险、移动和互联网等大数据来源单位的负责人;

6,高校、科研院所涉及到大数据与分布式数据处理的项目负责人;

7,数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

 

学员基础:

了解面向对象编程;

了解Linux的基本使用;

了解Scala语法

 

课程大纲:

第1堂课:Spark的架构设计

1.1 Spark生态系统剖析

1.2 Spark的架构设计剖析

1.3 RDD计算流程解析

1.4 Spark的出色容错机制

 

第2堂课:Spark编程模型

2.1 RDD

2.2 transformation

2.3 action

2.4 lineage

2.5宽依赖与窄依赖

 

第3堂课:深入Spark内核

3.1 Spark集群

3.2 任务调度

3.3 DAGScheduler

3.4 TaskScheduler

3.5 Task内部揭秘

 

第4堂课:Spark的广播变量与累加器

4.1 广播变量的机制

4.2 广播变量使用最佳实践

4.3 累加器的机制

4.4 累加器使用的最佳实践

 

第5堂课:编写Spark程序

5.1 程序数据的来源:File、HDFS、HBase、S3等

5.2 IDE环境构建

5.3 Maven

5.4 sbt.

5.5 编写并部署Spark程序的实例

 

第6堂课:SparkContext解析和数据加载以及存储

6.1 源码剖析SparkContext

6.2 Scala、Java、Python使用SparkContext

6.4 加载数据成为RDD

6.5 把数据物化

 

第7堂课:深入实战RDD

7.1 DAG

7.2 深入实战各种Scala RDD Function

7.3 Spark Java RDD Function

7.4 RDD的优化问题

 

第8堂课:Shark的原理和使用

8.1 Shark与Hive

8.2 安装和配置Shark

8.3 使用Shark处理数据

8.4 在Spark程序中使用Shark Queries

8.5 SharkServer

8.6 思考Shark架构

 

第9堂课:Spark的机器学习

9.1 LinearRegression

9.2 K-Means

9.3 Collaborative Filtering

 

第10堂课:Spark的图计算GraphX

10.1 Table Operators

10.2 Graph Operators

10.3 GraphX

 

第11堂课:Spark SQL

11.1 Parquet支持

11.2 DSL

11.3 SQL on RDD

 

第12堂课:Spark实时流处理

12.1 DStream

12.2 transformation

12.3 checkpoint

12.4 性能优化

 

第13堂课:Spark程序的测试

13.1 编写可测试的Spark程序

13.2 Spark测试框架解析

13.3 Spark测试代码实战

 

第14堂课:Spark的优化

14.1 Logs

14.2 并发

14.3 内存

14.4 垃圾回收

14.5 序列化

14.6 安全

 

第15堂课:Spark on Yarn

15.1 Spark on Yarn的架构原理

15.2 Spark on Yarn的最佳实践

 

第16堂课:JobServer

16.1 JobServer的架构设计

16.2 JobServer提供的接口

16.3 JobServer最佳实践

 

第17堂课:Spark项目案例实战

17.1 Spark项目的最佳架构模式

17.2 案例的介绍和架构

17.3 案例的源码实现

17.4 调优

关于艾威

源于美国 始于1998 艾威(AVTECH)是北美著名的培训机构,总部位于美国新泽西州,2000 年进入中国,以培养国际化的中高端信息人才为己任,专注于国际前沿的新技术研发与教育,艾威主要的业务为培训与咨询两大类,目前培训的主要产品有:项目管理培训、IT 管理培训、IT 技术培训、云计算大数据培训、需求管理培训、产品管理培训,信息安全类,AI 人工智能等....近十类上几百门的课程的培训与咨询服务。
艾威(中国)秉承总部“诚信为本、品质为先”的理念,凭借美国艾威科学的课程体系和多年积累的丰富教学经验,结合中国本土企业文化、实际需求,为企业、个人提供定制化的培训解决方案。艾威进入中国这十八年来已经服务了超过 10000 多家客户,获得了良好的口碑!已被众多 500强企业纳入培训供应商,如 HP,NOKIA,CISCO,INTEL,GE,华为,宝马,德电,通用,大陆汽车,中国银行,交行,工行,罗氏,赛诺菲,埃森哲……等。
  • 艾威是 Prometric,VUE,PSI……等众多国际认证中心授权的考点
  • 艾威是PMI国际项目管理协会PMP、PGMP、PFMP、PMI-ACP、PMI-PBA授权培训机构
  • 艾威是IIBA(国际商业分析师行业协会)授权的EECBA、CCBA、CBAP、CDBA、IIBA-AAC、IIBA-CCA授权培训机构
  • 艾威是 IT 服务管理官方 EXIN 授权的 ITIL,ITIL EXPERT,Prince2,EXIN Agile Scrum Master 教育机构,同时也是此系列课程的认证考试中心。
  • 艾威是ISACA国际信息系统审计师行业协会授权的CISA、COBIT、CDPSE、CRISC、CISM认证培训考试机构。
  • 艾威是The Open Group 授权的 TOGAF 企业架构的官方培训机构。
  • 艾威是 EPI 授权的数据中心 CDCP 培训机构,华东地区唯一 CDCP 授权培训机构,同时也是 CDCP 认证考试考场。
  • 艾威是国际外包专业协会(IAOP)独家授权外包治理国际认证 SGF(Sourcing Governance Foundation)
  • 艾威是Peoplecert授权的ITIL、Prince2、MSP、P3O、MOP、DevOps、Alige Scrum Master认证培训考试机构