data-engineering-zoomcamp - 免费数据工程课程!

Created at: 2021-10-21 17:32:50
Language: Jupyter Notebook

数据工程 Zoomcamp

教学大纲

参加课程

2023 年队列

自定进度模式

课程的所有材料都是免费提供的,因此你可以按照自己的进度参加课程

  • 每周遵循建议的教学大纲(见下文)
  • 你无需填写注册表。只需开始观看视频并加入 Slack
  • 如果你有问题,请查看常见问题解答
  • 如果在常见问题解答中找不到问题的解决方案,请在 Slack 中寻求帮助

2022 届学生

在 Slack 中寻求帮助

获得支持的最佳方式是使用DataTalks.Club的Slack。加入#course数据工程频道。

要使 Slack 中的讨论更有条理,请执行以下操作:

教学大纲

注意:NYC TLC更改了我们使用的镶木地板数据格式。但是你仍然可以在此处访问csv文件。

第 1 周:简介和先决条件

  • 课程概述
  • 基仕伯简介
  • Docker 和 docker-compose
  • 使用 Docker 在本地运行 Postgres
  • 使用 Terraform 在 GCP 上设置基础架构
  • 为课程准备环境
  • 作业

更多详情

第 2 周:数据引入

  • 数据湖
  • 工作流编排
  • 在本地设置 Airflow
  • 使用 Airflow 将数据摄取到 GCP
  • 使用 Airflow 将数据摄取到本地 Postgres
  • 将数据从 AWS 移动到 GCP(传输服务)
  • 作业

更多详情

第 3 周:数据仓库

  • 数据仓库
  • 大查询
  • 分区和群集
  • 大查询最佳实践
  • BigQuery 的内部结构
  • 将 BigQuery 与 Airflow 集成
  • 大查询机器学习

更多详情

第 4 周:分析工程

  • 分析工程基础
  • dbt (数据构建工具)
  • BigQuery 和 dbt
  • Postgres 和 dbt
  • dbt 型号
  • 测试和记录
  • 部署到云和本地
  • 使用谷歌数据工作室和元数据库可视化数据

更多详情

第 5 周:批处理

  • 批处理
  • 什么是星火
  • Spark 数据帧
  • Spark SQL
  • 内部结构:分组依据和联接

更多详情

第 6 周:流媒体

  • Kafka 简介
  • Schemas (avro)
  • Kafka 流
  • Kafka Connect 和 KSQL

更多详情

第 7、8 和 9 周:项目

将我们学到的一切付诸实践

  • 第 7 周和第 8 周:处理你的项目
  • 第 9 周:回顾你的同行

更多详情

概述

架构图

技术

  • 谷歌云平台(GCP):谷歌基于云的自动扩展平台
    • 谷歌云存储(GCS):数据湖
    • 大查询:数据仓库
  • Terraform:基础结构即代码 (IaC)
  • Docker:容器化
  • SQL:数据分析与探索
  • Airflow :管道编排
  • dbt:数据转换
  • Spark :分布式处理
  • 夫卡:流媒体

先决条件

为了充分利用本课程,你应该熟悉编码和命令行,并了解SQL的基础知识。以前使用Python的经验会有所帮助,但是如果你有其他编程语言的经验,则可以相对较快地选择Python。

不需要数据工程方面的先前经验。

教师

工具

对于本课程,你需要在计算机上安装以下软件:

  • Docker 和 Docker Compose(Docker-Compos)
  • Python 3(例如通过 Anaconda)
  • 谷歌云软件开发工具包
  • 大地形态

有关安装这些工具的更多详细信息,请参阅第 1 周

常见问题

  • :我已注册,但尚未收到确认电子邮件。正常吗?:是的,这很正常。它不是自动化的。但你最终会收到一封电子邮件
  • :它会在一天中的什么时间发生?:办公时间将在周一17:00 CET。但是一切都会被记录下来,所以你可以在方便的时候观看
  • :会有证书吗?:是的,如果你完成了项目
  • :我100%不确定我是否能够参加。我还能注册吗?:是的,请做!你将收到所有更新,然后你可以按照自己的节奏观看课程。
  • :你是否也计划开设 ML 工程课程?:很高兴你问。我们做:)
  • :我被困住了!我有一个技术问题!:在松弛上提问!并查看学生常见问题解答;许多常见问题已经得到解答。如果你的问题已解决,请将你解决问题的方式添加到文档中。谢谢!

支持者和合作伙伴

你想支持我们的课程和社区吗?请与 alexey@datatalks.club 联系

非常感谢其他社区帮助我们传播有关该课程的信息: