有没有办法将S330的文件列表复制到hdfs而不是使用s3distcp的完整文件夹?这是当srcPattern不能工作时。s3distcp的多个源文件
我有一个s3文件夹中的多个文件都有不同的名称。我只想将特定文件复制到hdfs目录。我没有找到任何方法指定s3distcp的多个源文件路径。我目前使用
解决方法是告诉在srcPattern
hadoop jar s3distcp.jar
--src s3n://bucket/src_folder/
--dest hdfs:///test/output/
--srcPattern '.*somefile.*|.*anotherone.*'
中的所有文件名可这件事情时,工作文件的数量实在是太多了?像大约10 000?
你的意思是我应该写所有文件名(S3路径)显示罚款? – 2014-12-12 12:50:00
是的。如果你想要一个清单文件的例子,只需使用--outputManifest选项运行s3distcp,它将生成所有拷贝文件的清单文件。 – 2014-12-14 12:27:55
我试过通过生成我想要的50k文件的列表(以清单格式),但是这种情况下不清楚在所需的“ - src”参数中使用了什么。 – conradlee 2016-08-04 18:17:01