我是Apache Nutch的新手,我想从mysql数据库动态注入URL。 Apache Nutch是否提供这种可能性?如果没有,是否有我可以学习的类似实验?或者有什么建议?注入网址到Apache Nutch从MySQL而不是seed.txt
2
A
回答
1
Nutch 1.x =>不开箱即用。你必须修改Injector代码,以便从MySQL读取,但这当然是可行的。我很早以前就为一个客户做过这件事。
另外,你可以使用StormCrawler,它有一个MySQL模块,应该没有额外的工作来让它工作。我们博客上的Cloudsearch tutorial显示了如何在SC上使用MySQL。
Nutch 2.x使用GORA作为中间层,IIRC有一个SQL插件。不确定其状态以及这是否合适。
3
由于Julien说你应该修改INJECTOR代码来实现这一点。不过,我可以为此提出解决方法。您可以使用命令bin/nutch startserver在服务器模式下使用NUTCH,然后从数据库加载您的种子URL。然后,您可以使用Nutch REST API使用从数据库加载的URL创建种子列表,并将创建的种子文件指向INJECT作业创建服务调用。
你可以找到关于此REST API的详细信息: -
http://nutch.apache.org/miredot/1.12/index.html#1153761698 或 https://docs.google.com/document/d/1OGg22ATohapP2ycewIaTcUnENc2FeyYzni0ED_Jjxz8/edit https://wiki.apache.org/nutch/NutchRESTAPI
相关问题
- 1. 即使URL从seed.txt中删除(Nutch 2.1)
- 2. 除了我使用Apache Nutch的1.12,我试图抓取的网址在seed.txt
- 3. Nutch没有抓取seed.txt中的所有网址
- 4. Nutch 2.1网址注入需要永久
- 5. 索引网址使用nutch注入网址内容
- 6. bin/nutch注入抓取/ crawldb网址不起作用
- 7. apache nutch不抓取网站
- 8. 只生成未取得的网址而不是得分Nutch 2.3
- 9. 如何或在哪里运行$ ./nutch注入抓取/ crawldb网址
- 10. 如何注入在爬到nutch种子列表中发现的网址
- 11. nutch注入hbase NoSuchMethodError
- 12. xmlhttp从变量,而不是网址 - javascript
- 13. 如何使用Apache Nutch抓取有空间的网址?
- 14. 将Apache Tika应用于Solr而不是Nutch有什么好处
- 15. apache nutch履带 - 保持只检索单个网址
- 16. 什么是插入+进入网址,而不是例如空间
- 17. PHP get_headers不是本地的Apache网址
- 18. 为什么Nutch(v2.3)只抓取种子网址,而不抓取整个网站?
- 19. Apache nutch不再爬行
- 20. 网址是&,而不是搜索引擎处理的网址?
- 21. Apache Nutch REST api
- 22. 我正在关注的Nutch的教程,并得到了“没有网址可获取”错误
- 23. node.js/express/mongodb而不是apache/mysql?
- 24. 从FB Connected网站注销而不是从主FB网站注销
- 25. Apache Nutch 2.3:不会注入URL(挂起)&hadoop日志显示警告
- 26. file_get_contents使用直接输入的网址,而不是自动获得的网址
- 27. MySQL的内容载入网址到表
- 28. 将图像从网址(而不是数据库)加载到网站上
- 29. Nutch:获取每个网址的种子网址
- 30. 网址注入问题与PHP网站
朱利安您好,感谢您的回答。我只对Nutch感兴趣。是的,在Gora支持apache nutch 2.3.1中有一个mysql插件,但我认为它仅用于存储数据而不用于URL输入。我不确定当我取消注释mysql和mongodb时(如果我只想将结果保存在mongodb中)会发生什么情况。 – Sparkan
取消注释可能会导致一个可爱的混乱我猜;-)。如果我是你,我会坚持使用Nutch 1.x(更好的性能,更少的配置等),并编写一个定制的Injector。无论如何,你必须对Nutch2.x进行同样的处理,除非你使用与GORA相同的序列化来处理你的种子,这可能不是你想要的。 –