2014-03-27 105 views
0

我试图在AWS上运行mapreduce代码示例。这是代码示例的链接https://github.com/ScaleUnlimited/wikipedia-ngrams如何在AWS中为hadoop Mapreduce作业创建作业jar

但是,我对这些东西来说很新颖。实际上,他们在自述文件中写入了我应该从代码示例构建作业jar文件。但是,仍然没有得到我如何建立一个工作瓶。

我也在下面这些视频解释如何在EMR http://www.youtube.com/watch?v=cAZur5maWZE&list=PL080E1DEBCE5388F3

运行工作,但他们也没告诉如何获得这一重要的jar文件来启动这项工作。

任何帮助

回答

0

您可以在eclipse中创建java文件,添加hadoop来构建路径,然后将它作为jar导出。有关详细信息,请参阅本教程中的“6.1创建Jar文件”:Introduction to Amazon Web Services and MapReduce Jobs

有两种方法可以通过控制台或CLI启动作业流程,请检查上述教程中的6.2,6.3。

1

一样的普通Java程序(http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html):

$ javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java 
$ jar -cvf /usr/joe/wordcount.jar -C wordcount_classes/ . 

,或者如果它是一个Maven项目:

$ mvn clean package 

或具体为https://github.com/ScaleUnlimited/wikipedia-ngrams(见README ):

$ ant clean job 
+0

好吧,他们说我应该在我的本地机器上运行它。但它没有奏效。是因为窗户吗? – Dhoha

+0

是的,你应该在本地机器上构建jar文件,然后将其上传到S3。 Windows不是问题,因为java是跨平台的,但可能需要正确设置开发环境。 –

相关问题