数据工程 Zoomcamp
教学大纲
参加课程
2024届
自定进度模式
课程的所有材料都是免费提供的,因此你
可以按照自己的节奏学习课程
- 每周遵循建议的教学大纲(见下文)
- 你无需填写注册表。只需开始观看视频并加入 Slack
- 如果你有问题,请查看常见问题解答
- 如果你在常见问题解答中找不到问题的解决方案,请在 Slack 中寻求帮助
教学大纲
注意:NYC TLC 将我们使用的数据格式更改为 parquet。
在课程中,我们仍然使用可在此处访问的 CSV 文件。
- 课程概述
- GCP 简介
- Docker 和 docker-compose
- 使用 Docker 在本地运行 Postgres
- 使用 Terraform 在 GCP 上设置基础架构
- 为课程准备环境
- 作业
更多详情
- 数据湖
- 工作流编排
- 使用 Mage 进行工作流编排
- 作业
更多详情
- 从 API 读取
- 构建可扩展的管道
- 规范化数据
- 增量加载
- 作业
更多详情
- 数据仓库
- BigQuery 大查询
- 分区和群集
- BigQuery 最佳做法
- BigQuery 的内部结构
- BigQuery 机器学习
更多详情
- 分析工程基础知识
- DBT(数据构建工具)
- BigQuery 和 dbt
- Postgres 和 dbt
- DBT 型号
- 测试和记录
- 部署到云和本地
- 使用 Google Data Studio 和元数据库可视化数据
更多详情
- 批处理
- 什么是Spark
- Spark 数据帧
- Spark SQL的
- 内部:GroupBy 和联接
更多详情
- Kafka 简介
- 架构 (avro)
- Kafka 流
- Kafka Connect 和 KSQL
更多详情
更多详情
将我们学到的一切付诸实践
- 第 1 周和第 2 周:处理你的项目
- 第 3 周:回顾你的同龄人
更多详情
概述

先决条件
为了充分利用本课程,你应该对编码和命令行感到满意
并了解 SQL 的基础知识。以前使用 Python 的经验会有所帮助,但你可以选择
如果你有使用其他编程语言的经验,则 Python 相对较快。
不需要数据工程方面的先前经验。
教师
历任导师:
课程用户界面
或者,你可以使用提供的 UI 应用程序访问此课程,该应用程序提供了一个用户友好的界面,用于浏览课程材料。

在 Slack 中寻求帮助
获得支持的最佳方式是使用 DataTalks.Club 的 Slack。加入 #course 数据工程
频道。
为了让 Slack 中的讨论更有条理:
支持者和合作伙伴
感谢课程赞助商使开设这门课程成为可能
你想支持我们的课程和我们的社区吗?请联系 alexey@datatalks.club
明星历史
