我有100个存储在HDFS中的Excel(* .xlsx)文件。从上面使用将大量Excel文件读取到Apache Spark中
rawData = sc.textFile("/user/cloudera/raw_data/dataPoint1/dataPoint.xlsx")
扔乱码数据
/user/cloudera/raw_data/dataPoint1/dataPoint.xlsx
/user/cloudera/raw_data/dataPoint2/dataPoint.xlsx
...
..
.
/user/cloudera/raw_data/dataPoint10/dataPoint.xlsx
阅读中的*的.xlsx文件中的一个: 的100个*的.xlsx文件被分为10个目录,如下图所示!我收到
一个明显的建议是使用Gnumeric电子表格应用程序的命令行工具,叫做ssconvert:
$ ssconvert dataPoint.xlsx dataPoint.csv
,然后倾倒入HDFS,这样我就可以直接读取* .csv文件。 但这不是我想要解决的或者是要求。
解决方案Python
(首选)和Java
将不胜感激。我是一名新手,所以详细的演练会非常有帮助。
在此先感谢。
我会加载每个文件与xlrd https://pypi.python.org/pypi/xlrd处理它,然后联合所有的数据。 –
@TomRon当你说处理它时,你的意思是将表单数据提取到一个python列表中,然后将该列表加载到一个RDD中? –
尝试使用熊猫描述(http://stackoverflow.com/questions/9884353/xls-to-csv-convertor)转换为csv,然后加载到火花RDD – szu