data-engineering-zoomcamp - 免费数据工程课程!

Created at: 2021-10-21 17:32:50
Language: Jupyter Notebook

数据工程 Zoomcamp

教学大纲

参加课程

2024届

自定进度模式

课程的所有材料都是免费提供的,因此你 可以按照自己的节奏学习课程

  • 每周遵循建议的教学大纲(见下文)
  • 你无需填写注册表。只需开始观看视频并加入 Slack
  • 如果你有问题,请查看常见问题解答
  • 如果你在常见问题解答中找不到问题的解决方案,请在 Slack 中寻求帮助

教学大纲

注意:NYC TLC 将我们使用的数据格式更改为 parquet。 在课程中,我们仍然使用在此处访问的 CSV 文件。

模块 1: 容器化和基础架构即代码

  • 课程概述
  • GCP 简介
  • Docker 和 docker-compose
  • 使用 Docker 在本地运行 Postgres
  • 使用 Terraform 在 GCP 上设置基础架构
  • 为课程准备环境
  • 作业

更多详情

模块 2: 工作流编排

  • 数据湖
  • 工作流编排
  • 使用 Mage 进行工作流编排
  • 作业

更多详情

研讨会 1:数据引入

  • 从 API 读取
  • 构建可扩展的管道
  • 规范化数据
  • 增量加载
  • 作业

更多详情

模块 3: 数据仓库

  • 数据仓库
  • BigQuery 大查询
  • 分区和群集
  • BigQuery 最佳做法
  • BigQuery 的内部结构
  • BigQuery 机器学习

更多详情

模块 4: 分析工程

  • 分析工程基础知识
  • DBT(数据构建工具)
  • BigQuery 和 dbt
  • Postgres 和 dbt
  • DBT 型号
  • 测试和记录
  • 部署到云和本地
  • 使用 Google Data Studio 和元数据库可视化数据

更多详情

模块 5:批处理

  • 批处理
  • 什么是Spark
  • Spark 数据帧
  • Spark SQL的
  • 内部:GroupBy 和联接

更多详情

模块 6:流式处理

  • Kafka 简介
  • 架构 (avro)
  • Kafka 流
  • Kafka Connect 和 KSQL

更多详情

研讨会 2:使用 SQL 进行流处理

更多详情

项目

将我们学到的一切付诸实践

  • 第 1 周和第 2 周:处理你的项目
  • 第 3 周:回顾你的同龄人

更多详情

概述

先决条件

为了充分利用本课程,你应该对编码和命令行感到满意 并了解 SQL 的基础知识。以前使用 Python 的经验会有所帮助,但你可以选择 如果你有使用其他编程语言的经验,则 Python 相对较快。

不需要数据工程方面的先前经验。

教师

历任导师:

课程用户界面

或者,你可以使用提供的 UI 应用程序访问此课程,该应用程序提供了一个用户友好的界面,用于浏览课程材料。

dezoomcamp-ui

在 Slack 中寻求帮助

获得支持的最佳方式是使用 DataTalks.Club 的 Slack。加入 #course 数据工程频道。

为了让 Slack 中的讨论更有条理:

支持者和合作伙伴

感谢课程赞助商使开设这门课程成为可能

你想支持我们的课程和我们的社区吗?请联系 alexey@datatalks.club

明星历史

星历图