海隧道原名水滴,自2021年10月12日起更名为海隧道。
SeaTunnel是下一代超高性能、分布式、海量数据集成工具。每天能稳定高效地同步数百亿数据,已用于多家企业生产。
SeaTunnel专注于数据集成和数据同步,主要针对解决数据集成领域的常见问题:
此外,SeaTunnel提供了一个不依赖于特定执行引擎的连接器API。基于此 API 开发的连接器(源、转换、接收器)可以在许多不同的引擎上运行,例如当前支持的 SeaTunnel Zeta Engine、Flink、Spark。
SeaTunnel 的运行流程如上图所示。
用户配置作业信息并选择执行引擎以提交作业。
源连接器负责并行化数据并将数据发送到下游转换或直接发送到接收器,接收器将数据写入目标。值得注意的是,源和转换和接收器都可以由你自己轻松开发和扩展。
SeaTunnel 使用的默认引擎是 SeaTunnel Engine。如果你选择使用 Flink 或 Spark 引擎,SeaTunnel 会将连接器打包到 Flink 或 Spark 程序中,并将其提交给 Flink 或 Spark 运行。
直接运行软件包下载地址:https://seatunnel.apache.org/download
默认情况下,SeaTunnel 使用 SeaTunnel Zeta 引擎作为数据同步的运行时执行引擎。我们强烈建议使用 Zeta 引擎作为运行时引擎,因为它提供了卓越的功能和性能。顺便说一下,SeaTunnel 还支持使用 Flink 或 Spark 作为执行引擎。
海隧道泽塔发动机 https://seatunnel.apache.org/docs/start-v2/locally/quick-start-seatunnel-engine/
Spark https://seatunnel.apache.org/docs/start-v2/locally/quick-start-spark
眨眼 https://seatunnel.apache.org/docs/start-v2/locally/quick-start-flink
微博业务使用SeaTunnel的内部定制版本及其子项目Guardian进行SeaTunnel On Yarn任务监控,用于数百个实时流计算任务。
将业务服务的各种日志收集到 Apache Kafka 中,Apache Kafka 中的一些数据通过 SeaTunnel 消费提取,然后存储到 Clickhouse 中。
新浪数据运营分析平台利用SeaTunnel对新浪新闻、CDN等服务的数据运维进行实时和离线分析,并写入Clickhouse。
搜狗七千系统以海隧道为ETL工具,帮助建立实时数据仓库系统。
SeaTunnel为永辉云创科技旗下新零售品牌永辉生活提供电商用户行为数据的实时流化和离线SQL计算。
有关更多用例,请参阅:https://seatunnel.apache.org/blog
本项目遵守贡献者盟约行为准则。通过参与,你应该遵守此准则。请按照举报准则举报不可接受的行为。
感谢所有开发人员!
请遵循此文档。
dev-subscribe@seatunnel.apache.org
SeaTunnel丰富了CNCF云原生景观。
各种公司和组织使用SeaTunnel进行研究,生产和商业产品。访问我们的网站以查找用户页面。