2
我是spark/scala的新手,需要从hdfs加载一个文件进行spark。我在HDFS文件(/newhdfs/abc.txt
),我可以用hdfs dfs -cat /newhdfs/abc.txt
将hdfs文件加载到spark上下文中
我做下面以将文件加载到火花背景
spark-shell #It entered into scala console window
scala> import org.apache.spark._; //Line 1
scala> val conf=new SparkConf().setMaster("local[*]");
scala> val sc = new SparkContext(conf);
scala> val input=sc.textFile("hdfs:///newhdfs/abc.txt"); //Line 4
看到我的文件内容有一次,我打4号线进入,我正在收到消息。
input: org.apache.spark.rdd.RDD[String] = hdfs:///newhdfs/abc.txt MapPartitionsRDD[19] at textFile at <console>:27``
这是致命错误吗?我需要做些什么来解决这个问题?
(使用火花2.0.0和Hadoop 2.7.0)
@gsamaras,注意。谢谢 :-) – Spike