1
我的使用案例是我批量处理不断被新文件更新的存储桶中的文件。我不想处理已处理的csv文件。有没有办法读取所有文件,不包括python apache束中定义的文件列表?
有没有办法做到这一点?
我想到的一个可能的解决方案是有一个文本文件,它维护已处理文件的列表,然后读取除处理列表中的文件之外的所有csv文件。那可能吗?
或者是否有可能读取特定文件的列表?
我的使用案例是我批量处理不断被新文件更新的存储桶中的文件。我不想处理已处理的csv文件。有没有办法读取所有文件,不包括python apache束中定义的文件列表?
有没有办法做到这一点?
我想到的一个可能的解决方案是有一个文本文件,它维护已处理文件的列表,然后读取除处理列表中的文件之外的所有csv文件。那可能吗?
或者是否有可能读取特定文件的列表?
有没有一个好的内置方式来做到这一点,但你可以有一个阶段的管道,计算文件的列表来读取您的建议,使用DoFn映射文件名的内容文件。有关如何编写此DoFn的信息,请参见Reading multiple .gz file and identifying which row belongs to which file
这在Beam Java中以2.2开头支持 - 请参阅https://stackoverflow.com/questions/47896488/watching-for-new-files-matching-a-filepattern-在-apache的束/ 47896489#47896489 – jkff