数据工程 Zoomcamp
教学大纲
参加课程
2023 年队列
自定进度模式
课程的所有材料都是免费提供的,因此你可以按照自己的进度参加课程
- 每周遵循建议的教学大纲(见下文)
- 你无需填写注册表。只需开始观看视频并加入 Slack
- 如果你有问题,请查看常见问题解答
- 如果在常见问题解答中找不到问题的解决方案,请在 Slack 中寻求帮助
2022 届学生
在 Slack 中寻求帮助
获得支持的最佳方式是使用DataTalks.Club的Slack。加入#course数据工程
频道。
要使 Slack 中的讨论更有条理,请执行以下操作:
教学大纲
注意:NYC TLC更改了我们使用的镶木地板数据格式。但是你仍然可以在此处访问csv文件。
- 课程概述
- 基仕伯简介
- Docker 和 docker-compose
- 使用 Docker 在本地运行 Postgres
- 使用 Terraform 在 GCP 上设置基础架构
- 为课程准备环境
- 作业
更多详情
- 数据湖
- 工作流编排
- 在本地设置 Airflow
- 使用 Airflow 将数据摄取到 GCP
- 使用 Airflow 将数据摄取到本地 Postgres
- 将数据从 AWS 移动到 GCP(传输服务)
- 作业
更多详情
- 数据仓库
- 大查询
- 分区和群集
- 大查询最佳实践
- BigQuery 的内部结构
- 将 BigQuery 与 Airflow 集成
- 大查询机器学习
更多详情
- 分析工程基础
- dbt (数据构建工具)
- BigQuery 和 dbt
- Postgres 和 dbt
- dbt 型号
- 测试和记录
- 部署到云和本地
- 使用谷歌数据工作室和元数据库可视化数据
更多详情
- 批处理
- 什么是星火
- Spark 数据帧
- Spark SQL
- 内部结构:分组依据和联接
更多详情
- Kafka 简介
- Schemas (avro)
- Kafka 流
- Kafka Connect 和 KSQL
更多详情
将我们学到的一切付诸实践
- 第 7 周和第 8 周:处理你的项目
- 第 9 周:回顾你的同行
更多详情
概述
架构图

技术
-
谷歌云平台(GCP):谷歌基于云的自动扩展平台
-
Terraform:基础结构即代码 (IaC)
-
Docker:容器化
-
SQL:数据分析与探索
-
Airflow :管道编排
-
dbt:数据转换
-
Spark :分布式处理
-
卡夫卡:流媒体
先决条件
为了充分利用本课程,你应该熟悉编码和命令行,并了解SQL的基础知识。以前使用Python的经验会有所帮助,但是如果你有其他编程语言的经验,则可以相对较快地选择Python。
不需要数据工程方面的先前经验。
教师
工具
对于本课程,你需要在计算机上安装以下软件:
- Docker 和 Docker Compose(Docker-Compos)
- Python 3(例如通过 Anaconda)
- 谷歌云软件开发工具包
- 大地形态
有关安装这些工具的更多详细信息,请参阅第 1 周
常见问题
-
问:我已注册,但尚未收到确认电子邮件。正常吗?答:是的,这很正常。它不是自动化的。但你最终会收到一封电子邮件
-
问:它会在一天中的什么时间发生?答:办公时间将在周一17:00 CET。但是一切都会被记录下来,所以你可以在方便的时候观看
-
问:会有证书吗?答:是的,如果你完成了项目
-
问:我100%不确定我是否能够参加。我还能注册吗?答:是的,请做!你将收到所有更新,然后你可以按照自己的节奏观看课程。
-
问:你是否也计划开设 ML 工程课程?答:很高兴你问。我们做:)
-
问:我被困住了!我有一个技术问题!答:在松弛上提问!并查看学生常见问题解答;许多常见问题已经得到解答。如果你的问题已解决,请将你解决问题的方式添加到文档中。谢谢!
支持者和合作伙伴
你想支持我们的课程和社区吗?请与 alexey@datatalks.club 联系
非常感谢其他社区帮助我们传播有关该课程的信息: