我有一个RDD看起来像这样如何从PySpark中的RDD创建数据框?
[((0, Row(event_type_new=u'ALERT|VEHICLE_HEALTH_DATA|CHANGE_IN_HEALTH|DTC|B109F|', day=u'Fri')), 0),
((1, Row(event_type_new=u'ALERT|VEHICLE_HEALTH_DATA|CHANGE_IN_HEALTH|DTC|B1115|HIGH MOUNTED STOP LAMP CONTROL', day=u'Sat')), 2)]
其具有索引,行对象(event_type_new
和day
),接着是预测(整数)。如何创建包含3列的DataFrame,包括event_type_new
,day
和Prediction
。
我正在使用Spark 1.6.2和PySpark API。
谢谢!
不得不在地图上明确定义类型,使其工作。像这样ls_rdd.map(lambda x:Row(** {'day':str(x [0] [1] .day),'event_type':str(x [0] [1] .event_type_new),'prediction ':int(x [1])})) – Isaac
谢谢@Isaac!我会根据评论更新解决方案。我的Spark版本是2.1,我猜它隐含推断数据类型。 – titipata