大家好,我是reqmnt从http://10.3.9.34:9900/messages
是从http://10.3.9.34:9900/messages
提取数据,并把这些数据在HDFS位置/user/cloudera/flume
和HDFS创建使用的Tableau或色调UI分析报告创建Analytics(分析)创建从http Analytics(分析)。我用下面的代码试图在CDH5.5的火花外壳,但正是Scala控制台无法从HTTP链接使用火花流
import org.apache.spark.SparkContext
val dataRDD = sc.textFile("http://10.3.9.34:9900/messages")
dataRDD.collect().foreach(println)
dataRDD.count()
dataRDD.saveAsTextFile("/user/cloudera/flume")
我得到以下错误在斯卡拉控制台获取数据:
java.io. IOException异常:没有文件系统的方案:在 org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2637)HTTP在 org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2623) at org.apache.hadoop.fs.FileSystem.access $ 200(FileSystem.java:93)at org.apache.hadoop.fs.FileS ystem $ Cache.getInternal(FileSystem.java:2680) at org.apache.hadoop.fs.FileSystem $ Cache.get(FileSystem.java:2662)at org.apache.hadoop.fs.FileSystem.get(FileSystem。 Java的:379)在 org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)
谢谢,我能够使用scala代码从http套接字中提取数据,这里是代码导入org.apache.spark.SparkContext val data = scala.io.Source.fromURL(“http://10.3。 9.34:9900/merged“)。mkString val list = data.split(”\ n“)。filter(_!=”“) val rdds = sc.parallelize(list) rdds.saveAsTextFile(”/ user/Cloudera的/火花“) –