incubator-seatunnel - SeaTunnel 是一个分布式、高性能的数据集成平台,用于海量数据(离线和实时)的同步和转换。

Created at: 2017-08-05 17:14:47
Language: Java
License: Apache-2.0

Apache 海底隧道(孵化中)

海隧道标志

后端工作流 松弛 推特关注


英文文档

海隧道原名水滴,自2021年10月12日起更名为海隧道。


SeaTunnel是一款非常易用的超高性能分布式数据集成平台,支持海量数据的实时同步。每天可稳定高效地同步数百亿数据,已用于近百家企业生产。

为什么我们需要海隧道

SeaTunnel将尽最大努力解决海量数据同步中可能遇到的问题:

  • 数据丢失和重复
  • 任务累积和延迟
  • 低吞吐量
  • 在生产环境中应用周期长
  • 缺少应用程序运行状态监控

海底隧道使用场景

  • 海量数据同步
  • 海量数据集成
  • 海量数据的 ETL
  • 海量数据聚合
  • 多源数据处理

海底隧道的特点

  • 易于使用,配置灵活,低代码开发
  • 实时流式传输
  • 离线多源数据分析
  • 高性能、海量数据处理能力
  • 模块化和插入式机制,易于扩展
  • 支持SQL数据处理和聚合
  • 支持 Spark 结构化流
  • 支持 Spark 2.x

海隧道工作流程

海底隧道工作流程.svg

Source[Data Source Input] -> Transform[Data Processing] -> Sink[Result Output]

数据处理管道由多个过滤器组成,满足各种数据处理需求。如果你习惯了SQL,也可以直接通过SQL构造一个数据处理管道,简单高效。目前,SeaTunnel支持的过滤器列表仍在扩展中。此外,你可以开发自己的数据处理插件,因为整个系统易于扩展。

海隧道支持的连接器

  • 支持的连接器签

  • 转换支持的签出

下面是我们的连接器及其运行状况列表。连接器状态

环境依赖性

  1. java 运行时环境,java >= 8

  2. 如果要在群集环境中运行 SeaTunnel,可以使用以下任何 Spark 群集环境:

  • 纱线上的 Spark
  • 星火独立版

如果数据量较小,或者目标只是功能验证,你也可以在没有集群环境的情况下以本地模式启动,因为 SeaTunnel 支持独立操作。注意:SeaTunnel 2.0 支持在 Spark 和 Flink 上运行。

编译项目

请遵循此文档

下载

直接运行软件包下载地址:https://seatunnel.apache.org/download

快速入门

Spark https://seatunnel.apache.org/docs/deployment

眨眼 https://seatunnel.apache.org/docs/deployment

有关海底隧道 https://seatunnel.apache.org/docs/intro/about 的详细文档

应用实践案例

  • 微博,增值业务部数据平台

微博业务使用SeaTunnel的内部定制版本及其子项目Guardian进行SeaTunnel On Yarn任务监控,用于数百个实时流计算任务。

  • 新浪,大数据运营分析平台

新浪数据运营分析平台利用SeaTunnel对新浪新闻、CDN等服务的数据运维进行实时和离线分析,并写入Clickhouse。

  • 搜狗、搜狗七千系统

搜狗七千系统以海隧道为ETL工具,帮助建立实时数据仓库系统。

  • 曲头条, 曲头条数据中心

趣头条数据中心使用SeaTunnel支持mysql到Hive离线ETL任务,实时Hive到clickhouse回填技术支持,很好地覆盖了大多数离线和实时任务的需求。

  • 易夏科技、易之博数据平台

  • 永辉超市创始人联盟-永辉云创科技会员电商数据分析平台

SeaTunnel为永辉云创科技旗下新零售品牌永辉生活提供电商用户行为数据的实时流化和离线SQL计算。

  • 水滴,数据平台

水手手采用SeaTunnel对Yarn进行实时流式传输和定期离线批处理,平均每天处理3~4T数据量,然后将数据写入Clickhouse。

  • 腾讯云

将业务服务的各种日志收集到 Apache Kafka 中,Apache Kafka 中的一些数据通过 Seatunnel 消费提取,然后存储到 Clickhouse 中。

有关更多用例,请参阅:https://seatunnel.apache.org/blog

行为准则

本项目遵守贡献者盟约行为准则。通过参与,你应该遵守此准则。请按照举报准则举报不可接受的行为。

开发 人员

感谢所有开发人员

联系我们

景观



  

SeaTunnel丰富了CNCF云原生景观。

我们的用户

各种公司和组织使用SeaTunnel进行研究,生产和商业产品。访问我们的网站以查找用户页面。

许可证

Apache 2.0 许可证。