2012-04-23 88 views
4

我可以使用Nutch对网页进行检索和索引,但我不知道如何读取索引并从中提取数据。如何阅读Nutch索引的内容?

任何人都可以向我介绍一些有用的工具来阅读索引?

我想添加一个中文语言分析器和一个IndexFilter插件,所以我想读取索引来验证我的插件。而且,我想对使用Java进行爬网的数据执行一些过程。

回答

0

使用luke tool来浏览nutch索引。转储索引选项可以为整个索引创建一个xml文件。如果你必须通过代码来完成,那么你需要学习lucene。

要阅读抓取的内容,请使用nutch segment reader

0

您可以使用所提供的读取命令状

bin/nutch readseg xxx 

阅读的内容。

希望this会帮助你。

+0

嗨,John,很高兴和你沟通。我无法在个人资料页面找到您的电子邮件(实际上,我是新来的)。请寄给我([email protected])。我期待着您的电子邮件。
最好。 – Freedom 2012-04-24 12:00:58