我试图通过HDFS搜索镶木地板文件并将其列出。我使用这个,这很好。它看起来在所有的子目录中/sources.works_dbo
,给我所有的实木复合地板的文件:递归搜索grep
hdfs dfs -ls -R /sources/works_dbo | grep ".*\.parquet$"
然而,我只想返回每个子目录遇到的第一个文件,以便每个子目录只出现在输出中的一行中。说我有这样的:
sources/works_dbo/test1/file1.parquet
sources/works_dbo/test1/file2.parquet
sources/works_dbo/test2/file3.parquet
当我运行我的命令,我希望输出是这样的:
sources/works_dbo/test1/file1.parquet
sources/works_dbo/test2/file3.parquet
这实在是优雅。 – codeforester