我有时间序列数据的一个非常大的表有这些列:应用自定义函数的火花数据帧组
- 时间戳
- LicensePlate
- UberRide#
- 速度
每一批LicensePlate/UberRide数据都应该考虑整套数据进行处理。换句话说,我不需要需要逐行处理数据,但所有的行按照(LicensePlate/UberRide)分组在一起。
我打算在数据框api中使用spark,但是我对如何执行spark组合数据框的自定义计算感到困惑。
我需要做的是:
- 获取所有数据
- 集团通过一些列
- 的foreach火花数据帧组施加一个F(X)。返回自定义对象的foreach组
- 通过应用G(X)并返回一个自定义对象
我可以做怎样步骤3和4得到的结果?我应该使用哪些API(dataframe,dataset,rdd,可能是熊猫...)的任何提示?
的整个工作流程可以看到下面:
熊猫不是Spark的一部分,你可以使用'DataFrame',但是你必须[必须在Scala中执行](http://stackoverflow.com/a/32101530/1560062)和[add Python包装](http://stackoverflow.com/a/33257733/1560062),RDD应该工作得很好。 – zero323
我不能直接使用Spark吗?我使用Spark 1.6.2 – guilhermecgs
如果你的意思是PySpark,那么就像我说的 - RDDs应该工作得很好。 – zero323