将hdfs文件加载到spark上下文中

我是spark/scala的新手，需要从hdfs加载一个文件进行spark。我在HDFS文件（/newhdfs/abc.txt），我可以用hdfs dfs -cat /newhdfs/abc.txt将hdfs文件加载到spark上下文中

我做下面以将文件加载到火花背景

spark-shell #It entered into scala console window 

scala> import org.apache.spark._; //Line 1 
scala> val conf=new SparkConf().setMaster("local[*]"); 
scala> val sc = new SparkContext(conf); 
scala> val input=sc.textFile("hdfs:///newhdfs/abc.txt"); //Line 4

看到我的文件内容有一次，我打4号线进入，我正在收到消息。

input: org.apache.spark.rdd.RDD[String] = hdfs:///newhdfs/abc.txt MapPartitionsRDD[19] at textFile at <console>:27``

这是致命错误吗？我需要做些什么来解决这个问题？

（使用火花2.0.0和Hadoop 2.7.0）

来源

2016-09-30 Spike

@gsamaras，注意。谢谢：-） – Spike

这是不是错误，它只是说你的RDD文件的名称。

在Basic docs，有这样的例子：

scala> val textFile = sc.textFile("README.md") 
textFile: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:25

这表明了同样的行为。

你怎么会想到没有行动触发实际工作中发生的发生了错误？

如果您想检查一切正常，请对您的input RDD进行一次计数，这是一个操作，将触发文件的实际读取，然后触发RDD元素的计数。

来源

2016-09-30 07:25:49 gsamaras

将hdfs文件加载到spark上下文中

回答

相关问题