2016-07-07 71 views
1

两个人测试他们的计算机上Apache Spark ...星火文件系统观察在Windows

Spark Download

我们下载星火预生成的版本Hadoop的2.6,到了文件夹/spark-1.6.2-bin-hadoop2.6/,创造了“ TMP”目录,并运行:

$ bin/run-example org.apache.spark.examples.streaming.HdfsWordCount tmp 

我添加任意文件content1content2dssdgdg到 “TMP” 的目录。

------------------------------------------- 
Time: 1467921704000 ms 
------------------------------------------- 
(content1,1) 
(content2dssdgdg,1) 

------------------------------------------- 
Time: 1467921706000 ms 

星火发现在我的Ubuntu 15.10的笔记本电脑上面的终端输出的文件,但不能在我的同事的Windows 7企业版的笔记本电脑。

Spark的文件系统监视器不能在Windows上工作吗?

回答

1

约翰,我会建议使用hadoop编译的二进制文件的64位Windows 7托管在https://github.com/karthikj1/Hadoop-2.7.1-Windows-64-binaries。要使用这个hadoop版本,您需要使用为用户提供的hadoop预先构建的spark版本。确保按照https://spark.apache.org/docs/latest/hadoop-provided.html中提到的方式设置SPARK_DIST_CLASSPATH。在PATH中也放入%HADOOP_HOME%\ lib \ native。安装完成后,您需要按照https://wiki.apache.org/hadoop/Hadoop2OnWindows提到的步骤3.1,3.3,3.4和3.5启动本地HDFS。在运行HdfsWordCount时,您需要传递hdfs:/// tmp作为目录路径arg。祝一切顺利。