海隧道原名水滴,自2021年10月12日起更名为海隧道。
SeaTunnel是一款非常易用的超高性能分布式数据集成平台,支持海量数据的实时同步。每天可稳定高效地同步数百亿数据,已用于近百家企业生产。
SeaTunnel将尽最大努力解决海量数据同步中可能遇到的问题:
Source[Data Source Input] -> Transform[Data Processing] -> Sink[Result Output]
数据处理管道由多个过滤器组成,满足各种数据处理需求。如果你习惯了SQL,也可以直接通过SQL构造一个数据处理管道,简单高效。目前,SeaTunnel支持的过滤器列表仍在扩展中。此外,你可以开发自己的数据处理插件,因为整个系统易于扩展。
java 运行时环境,java >= 8
如果要在群集环境中运行 SeaTunnel,可以使用以下任何 Spark 群集环境:
如果数据量较小,或者目标只是功能验证,你也可以在没有集群环境的情况下以本地模式启动,因为 SeaTunnel 支持独立操作。注意:SeaTunnel 2.0 支持在 Spark 和 Flink 上运行。
请遵循此文档。
直接运行软件包下载地址:https://seatunnel.apache.org/download
Spark https://seatunnel.apache.org/docs/deployment
眨眼 https://seatunnel.apache.org/docs/deployment
有关海底隧道 https://seatunnel.apache.org/docs/intro/about 的详细文档
微博业务使用SeaTunnel的内部定制版本及其子项目Guardian进行SeaTunnel On Yarn任务监控,用于数百个实时流计算任务。
新浪数据运营分析平台利用SeaTunnel对新浪新闻、CDN等服务的数据运维进行实时和离线分析,并写入Clickhouse。
搜狗七千系统以海隧道为ETL工具,帮助建立实时数据仓库系统。
趣头条数据中心使用SeaTunnel支持mysql到Hive离线ETL任务,实时Hive到clickhouse回填技术支持,很好地覆盖了大多数离线和实时任务的需求。
易夏科技、易之博数据平台
永辉超市创始人联盟-永辉云创科技会员电商数据分析平台
SeaTunnel为永辉云创科技旗下新零售品牌永辉生活提供电商用户行为数据的实时流化和离线SQL计算。
水手手采用SeaTunnel对Yarn进行实时流式传输和定期离线批处理,平均每天处理3~4T数据量,然后将数据写入Clickhouse。
将业务服务的各种日志收集到 Apache Kafka 中,Apache Kafka 中的一些数据通过 Seatunnel 消费提取,然后存储到 Clickhouse 中。
有关更多用例,请参阅:https://seatunnel.apache.org/blog
本项目遵守贡献者盟约行为准则。通过参与,你应该遵守此准则。请按照举报准则举报不可接受的行为。
感谢所有开发人员!
dev-subscribe@seatunnel.apache.org
SeaTunnel丰富了CNCF云原生景观。
各种公司和组织使用SeaTunnel进行研究,生产和商业产品。访问我们的网站以查找用户页面。