温馨提示:本文翻译自stackoverflow.com,查看原文请点击:google cloud platform - GCP Datafusion repeating same data from GCS
cdap google-cloud-data-fusion google-cloud-platform

google cloud platform - GCP Datafusion从GCS重复相同的数据

发布于 2020-05-26 12:14:17

我有一个管道,该管道从存储中读取20个文件,并从中提取每个文件的路径并加载到表中。理想情况下,记录数应为20,但是当我执行管道时,同一记录一次又一次地飞行,从而使总记录数无限期增加。我想知道我在这里是否犯了任何错误。

查看更多

提问者
code tutorial
被浏览
16
Tlaquetzal 2020-03-10 01:51

我只是复制了这个问题。我的猜测是您要在BigQuery中为文件中的每条记录插入一条记录。例如,如果选择Blob格式,则每个文件只有一条记录。