1
我想避免将整个流写入文件,然后将其加载到数据框。什么是正确的方式?Spark从InputStream创建一个数据帧?
我想避免将整个流写入文件,然后将其加载到数据框。什么是正确的方式?Spark从InputStream创建一个数据帧?
您可以检查Spark Streaming和sqlnetworkWordCount这也解释了,你的问题可以通过创建的SparkSession
singleton instance
通过使用SparkStreaming
SparkContext
来解决。
你应该有更好的想法,通过以上链接dataframes
创建从streaming rdd
。
火花流? –
https://spark.apache.org/docs/latest/api/scala/index.html#[email protected](path:String,minPartitions:Int):org.apache.spark.rdd。 RDD [String] – Reactormonk
@Reactormonk,此API在hdfs中获取路径,而不是流。 – Raytracer