400-888-5228

课程介绍:

作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成.

Hive可以让你轻松的在Hadoop中存储、查询和分析海量数据。

 

课程特点:

1,深入浅出中动手实作;

2,对Hive深入浅出的剖析;

3,掌握Hive的优化技术;

4,Hive和亚马逊云计算;

 

课程时长:

2天

课程对象:

软件工程师;

数据库开发人员;

网络后台开发人员;

运维人员;

 

学员基础:

了解Linux系统;

了解网络;

了解Java;

 

课程大纲:

第1个主题:云计算的四大核心技术

1.HDFS

2.MapReduce

3.HBase

4.Hive

 

第2个主题:Hive集群与管理

1、Hadoop集群的搭建

2、Hadoop集群的监控

3、Hadoop集群的管理

4、集群下运行MapReduce程序

5、安装并启动Hive

6、测试Hive

 

第3个主题:Hive的命令、数据类型和文件格式

1.Hive的CLI

2.Hive的集合数据类型

3.编码和模式

 

第4个主题:开发Hive

1.连接Java调试器到Hive

2.通过Eclipse来开发Hive代码

3.Hive的单元测试

 

第5个主题:HQL

1.HQL的数据定义

2.使用HQL操作数据

3.深入HQL查询

 

第6个主题:HQL的视图和索引

1.HQL的视图:降低查询的复杂度和限定特定的条件

2.HQL的索引:索引的创建和管理、定制索引

 

第7个主题:Hive中的函数

1.使用Hive中已有的函数

2.自定义聚合函数

3.自定义表生成函数

4.在自定义函数中访问缓存

 

第8个主题:Hive的存储过程

1、为何需要Hive中的存储过程

2、在后台中运行的存储过程

3、HiveStorageHandler

4、存储过程的具体编写和使用

 

第9个主题:Hive架构优化

1、降低IO负载

2、表的分区、动态分区

3、压缩

4、分布式缓存

 

第10个主题:彻底优化HQL

1、HQL优化的具体策略和方式

2、Map和Reduce

3、数据倾斜

4,执行计划

 

第11个主题:在AWS上使用Hive

1.使用并管理EMRHive集群

2.EMR集群的详细配置

3.持久层、元数据

4.集群中的HDFS和S3(配置、日志等)

 

第12个主题:Hive的Thrift

1.配置、启动、使用Thrift

2.Thrift的管理

3.管理HiveServer

4.ThriftMetaStore