400-888-5228

课程概述

数据仓库和数据湖定制培训课程为期4-5天,重点关注Snowflake和Databricks平台的概述、架构、实际操作与应用实践。此课程将逐步引领您了解和掌握当前流行的数据湖与数据仓库技术。

培训目标

理解Snowflake和Databricks平台的核心概念与功能对比

掌握Databricks的环境设置、数据使用、任务管理等实际操作

学习使用Delta Lake构建批流一体数据仓库

探索机器学习、营销效果分析等实际案例的实现方法

适合人群

  • 数据分析师
  • 数据工程师
  • 业务分析师
  • 数据科学家
  • 数据仓库与数据湖的架构师
  • 想要扩展数据管理和分析技能的IT专业人员

课程长度

5天

一、Snowflake和Databricks得概述

   1、Snowflake和Databricks介绍

   2、Snowflake与Databricks主要功能的比较

   3、Databricks和Snowflake选型

   4、Databricks与Snowflake之争

   5、Snowflake和Databricks的前进方向

二、Databricks平台架构

   1、Databricks构建统一数据分析平台

   2、Snowflake湖仓一体架构

三、Databricks简介

   1、Databricks和Apache Spark概述

   2、理解Databricks架构

   3、Delta Lake数据湖基础介绍

四、Databricks平台环境演示:

    1、Databricks环境准备

       设置环境

       设置和配置Databricks

       导航Databricks用户界面

       创建Databricks工作区

       使用Databricks中的数据

    2、Databricks中数据使用

       连接Apache Spark数据源

       了解基本的列和数据类型

       管理文件系统到笔记本

       管理作业和集群

    3、管理任务和集群

       创建和配置集群

       使用笔记本创建作业

       运行作业

       查看作业和作业详细信息

    4、在Databricks中使用Delta Lake

       将数据加载到Delta Lake

       管理Delta Lake的数据

    5、Databricks安全

       管理Databricks安全性

       管理备份和恢复

    6、总结

       故障诊断和排除

       总结

五、实际案例:   

    1、使用Delta Lake构建批流一体数据仓库

    2、使用Databricks和MLflow进行机器学习模型训练和部署的应用实践

    3、使用Databricks进行营销效果归因分析的应用实践

    4、使用Databricks+Confluent进行实时数据采集入湖和分析