我有我的项目需求,其中一个python脚本用于分析数据。以前,我使用txt文件作为该python脚本的输入。但随着数据的增长,我必须将存储平台切换到Hadoop HDFS。我怎样才能HDFS数据到我的python脚本?有没有办法做到这一点?提前致谢。我们可以将Hadoop与Python集成吗?
1
A
回答
2
Hadoop的流API:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc
所有你需要知道的是在这里: http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/
+0
这是我正在寻找。那么,基本上所有的东西都将由Hadoop-streaming.jar处理?不需要额外的工作..我是否正确? –
+1
是的,这是正确的。 –
0
除了其他方法,你还可以嵌入的Pig Latin语句和猪在Python的脚本命令使用类似JDBC的编译,绑定,运行模型。对于Python,确保Jython jar包含在你的类路径中。请参考Apache的猪文档在这里获取更多详细信息:https://pig.apache.org/docs/r0.9.1/cont.html#embed-python
相关问题
- 1. 可以将Python与Java集成吗?
- 2. 我们可以将Oracle RECORD TYPE与Java Callable语句集成吗?
- 3. 我们可以将硒与JIRA和HP ALM集成吗?
- 4. 我们可以将IMDB与我们的tvOS应用程序集成吗?
- 5. 我们可以将Web邮件与我们的应用程序集成吗?
- 6. 任何人都可以帮助我们与omnet ++集成吗?
- 7. 我们可以与Cloud Service和内部AD环境集成吗
- 8. Can Neo 4j可以与HDFS/Hadoop集成
- 9. 我们可以将WinForms应用程序与WPF应用程序集成吗?
- 10. 我可以将MathJax集成到Python程序中吗?
- 11. 我可以将语音识别与C#集成吗?
- 12. 我可以将SourceSafe/VSS与SQL Server 2005集成吗?
- 13. 我可以将BIDS与SQL Server 2008 R2集成吗?
- 14. C++:我们可以收集类型吗?
- 15. 我们可以在iPhone应用程序中集成Flash吗?
- 16. 如何将Pylint与Geany集成,以便我可以将Geany用作Python IDE?
- 17. Dropwizard指标可以与Scalatra集成吗?
- 18. Magento可以与CakePHP集成吗?
- 19. Simplecart可以与jotform集成吗?
- 20. Doxygen可以与Netbeans C++集成吗?
- 21. node.js可以与php集成吗?
- 22. Apache cxf 2.7.10可以与Swagger集成吗?
- 23. SpecWatchr可以与dotCover集成吗?
- 24. 我们可以用python生成DTMF音吗?
- 25. 我们可以将QGIS地图集成到Web应用程序中吗?
- 26. 可以将JsLint集成到xCode中吗?
- 27. 我们可以将objectdatasource控件分配给数据集吗?
- 28. 如何将Hadoop与Mahout集成?
- 29. 如何将Cassandra与Hadoop集成
- 30. 如何将matlab与hadoop集成
使用Hadoop流式使用python,php等例如:hadoop jar hadoop/tools/lib/hadoop-streaming-2.7.2.jar -mapper /mapper.php -reducer/reducer.php -input/hdfsinputpath -output/hdfsoutputpath –
这可能有所帮助:http://stackoverflow.com/questions/12485718/python-read-file-as-stream-from-hdfs –