我可以将熊猫数据框转换为RDD吗?熊猫数据框到RDD
if isinstance(data2, pd.DataFrame):
print 'is Dataframe'
else:
print 'is NOT Dataframe'
是数据框
这里是我在尝试使用.rdd
dataRDD = data2.rdd
print dataRDD
AttributeError Traceback (most recent call last)
<ipython-input-56-7a9188b07317> in <module>()
----> 1 dataRDD = data2.rdd
2 print dataRDD
/usr/lib64/python2.7/site-packages/pandas/core/generic.pyc in __getattr__(self, name)
2148 return self[name]
2149 raise AttributeError("'%s' object has no attribute '%s'" %
-> 2150 (type(self).__name__, name))
2151
2152 def __setattr__(self, name, value):
AttributeError: 'DataFrame' object has no attribute 'rdd'
我想用大熊猫数据帧,而不是sqlContext建立,因为我不知道是否所有的输出Pandas DF的功能在Spark中可用。如果这是不可能的,有没有人可以提供使用Spark DF的示例
'spDF.show()'你把它在你的脚本的时间未定 – redress