2012-01-09 79 views
0

我正在使用nutch 1.4来实现重点抓取工具。谁能告诉我如何使用nutch CrawlDbReader,LinkDbReaderSegmentReader API在我的JSP程序,以便我可以为我的项目创建自定义用户界面。 具体来说,我需要发出像readdb,readseg等命令到抓取数据并通过浏览器获取输出。使用CrawlDbReader读取Nutch抓取数据

回答

0

有没有什么特别的这些API使得这不仅仅是“将数据从服务器传递到客户端”的问题? 您可以使用API​​来获取数据。看看它们如何被nutch.sh使用,以及如何构建main()并做类似的事情。然后通过XML或JSON或其他方式将数据传递给客户端。

+0

感谢您的回复。但是,一旦我尝试创建一个CrawlDbReader对象并试图访问它的方法。试图完成它的main()函数。但是一些org.hadoop.xxxx包中的某些类不能从我的程序中访问......任何线索? – Vijith 2012-01-13 10:52:31

+0

检查你的类路径。您应该将Hadoop jar添加到项目构建中。 Nutch肯定有它.. – AAaa 2012-01-14 11:35:35

+0

雅得到它..事实上,我在构建路径中使用另一个eclipse nutch项目。现在我添加了哈瑙罐。现在可以访问了。谢谢.. – Vijith 2012-01-16 06:06:36