我有一个运行在centos 6.5上的hadoop集群。我目前使用Python 2.6。由于不相关的原因,我无法升级到Python 2.7。由于这个不幸的事实,我不能安装pydoop。在hadoop集群中,我有大量的原始数据文件,名为raw“yearmonthdaytimehour”.txt括号中的所有内容都是数字。 有没有办法在python中制作hadoop目录下的所有文件列表?所以程序会创建一个类似的列表。在没有pydoop的情况下列出HDFS中的所有文件
listoffiles=['raw160317220001.txt', 'raw160317230001.txt', ....]
它将使一切我需要做很多更容易,因为摆脱每天2小时15文件,我将只需要调用dothing(listoffiles [39])。为什么我必须这样做呢,有一些无关的复杂因素。
我知道有一种方法可以很容易地使用本地目录来完成这项工作,但hadoop使得一切都变得更加复杂。
所以你要求一种方法来在Python中列出没有pydoop的HDFS文件? – kichik
只需通过shell进程运行'hadoop fs -ls'命令(假设你已经安装了Hadoop二进制文件) –
im问如何创建一个包含所有hdfs文件名称的数组。 – Sam