2016-09-30 26 views
2

我是spark/scala的新手,需要从hdfs加载一个文件进行spark。我在HDFS文件(/newhdfs/abc.txt),我可以用hdfs dfs -cat /newhdfs/abc.txt将hdfs文件加载到spark上下文中

我做下面以将文件加载到火花背景

spark-shell #It entered into scala console window 

scala> import org.apache.spark._; //Line 1 
scala> val conf=new SparkConf().setMaster("local[*]"); 
scala> val sc = new SparkContext(conf); 
scala> val input=sc.textFile("hdfs:///newhdfs/abc.txt"); //Line 4 

看到我的文件内容有一次,我打4号线进入,我正在收到消息。

input: org.apache.spark.rdd.RDD[String] = hdfs:///newhdfs/abc.txt MapPartitionsRDD[19] at textFile at <console>:27`` 

这是致命错误吗?我需要做些什么来解决这个问题?

(使用火花2.0.0和Hadoop 2.7.0)

+1

@gsamaras,注意。谢谢 :-) – Spike

回答

4

这是不是错误,它只是说你的RDD文件的名称。

Basic docs,有这样的例子:

scala> val textFile = sc.textFile("README.md") 
textFile: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:25 

这表明了同样的行为。


你怎么会想到没有行动触发实际工作中发生的发生了错误?

如果您想检查一切正常,请对您的input RDD进行一次计数,这是一个操作,将触发文件的实际读取,然后触发RDD元素的计数。