有没有办法读取所有文件，不包括python apache束中定义的文件列表？

我的使用案例是我批量处理不断被新文件更新的存储桶中的文件。我不想处理已处理的csv文件。有没有办法读取所有文件，不包括python apache束中定义的文件列表？

有没有办法做到这一点？

我想到的一个可能的解决方案是有一个文本文件，它维护已处理文件的列表，然后读取除处理列表中的文件之外的所有csv文件。那可能吗？

或者是否有可能读取特定文件的列表？

2016-09-20 agsolid

这在Beam Java中以2.2开头支持 - 请参阅https://stackoverflow.com/questions/47896488/watching-for-new-files-matching-a-filepattern-在-apache的束/ 47896489＃47896489 – jkff

有没有一个好的内置方式来做到这一点，但你可以有一个阶段的管道，计算文件的列表来读取您的建议，使用DoFn映射文件名的内容文件。有关如何编写此DoFn的信息，请参见Reading multiple .gz file and identifying which row belongs to which file

来源

2016-09-20 22:34:17 danielm

有没有办法读取所有文件，不包括python apache束中定义的文件列表？

回答

相关问题