0
嗨,我是Pyspark Streaming的新手。Pyspark流式转换错误
numbers0 = sc.parallelize([1,2,3,4,5])
numbers1 = sc.parallelize([2,3,4,5,6])
numbers2 = sc.parallelize([3,4,5,6,7])
stream0 = ssc.queueStream([numbers0, numbers1, numbers2])
stream0.pprint()
ssc.start()
ssc.awaitTermination(20)
ssc.stop()
这工作得很好,但只要我做了以下我得到一个错误:
stream1 = stream0.transform(lambda x: x.mean())
stream1.pprint()
ssc.start()
ssc.awaitTermination(20)
ssc.stop()
我要的是数据流只由我以前流的平均值。 有谁知道我必须做什么?
有什么错误? –
通过这种方式使用变换,您将有3个条目是每个RDD的手段。 –