2017-06-14 124 views
1

我想避免将整个流写入文件,然后将其加载到数据框。什么是正确的方式?Spark从InputStream创建一个数据帧?

+0

火花流? –

+0

https://spark.apache.org/docs/latest/api/scala/index.html#[email protected](path:String,minPartitions:Int):org.apache.spark.rdd。 RDD [String] – Reactormonk

+0

@Reactormonk,此API在hdfs中获取路径,而不是流。 – Raytracer

回答

1

您可以检查Spark StreamingsqlnetworkWordCount这也解释了,你的问题可以通过创建的SparkSessionsingleton instance通过使用SparkStreamingSparkContext来解决。

你应该有更好的想法,通过以上链接dataframes创建从streaming rdd