我有一个管道,该管道从存储中读取20个文件,并从中提取每个文件的路径并加载到表中。理想情况下,记录数应为20,但是当我执行管道时,同一记录一次又一次地飞行,从而使总记录数无限期增加。我想知道我在这里是否犯了任何错误。
查看更多
我只是复制了这个问题。我的猜测是您要在BigQuery中为文件中的每条记录插入一条记录。例如,如果选择Blob格式,则每个文件只有一条记录。
我没有读取文件,正在读取的文件是扩展名为.dcm的DICOM文件。我只想捕获文件的路径。即使只有文件,它也会无限循环并一次又一次重复相同的数据。
管道如何配置?您正在使用哪些源和转换来获取文件并将其插入表中?
来源是GCS。我给了一个存储桶路径(其中有20个.dcm图像),输出架构具有路径和正文。转换是javascript插件(我只想选择路径),接收器是HTTP插件,我要在其中发布数据。
在javascript转换期间,添加日志以查看您是否仅收到一次文件路径。另外,请检查post端点中的http返回代码,由于http重试,它可能会重复。