我可以使用Nutch对网页进行检索和索引,但我不知道如何读取索引并从中提取数据。如何阅读Nutch索引的内容?
任何人都可以向我介绍一些有用的工具来阅读索引?
我想添加一个中文语言分析器和一个IndexFilter
插件,所以我想读取索引来验证我的插件。而且,我想对使用Java进行爬网的数据执行一些过程。
我可以使用Nutch对网页进行检索和索引,但我不知道如何读取索引并从中提取数据。如何阅读Nutch索引的内容?
任何人都可以向我介绍一些有用的工具来阅读索引?
我想添加一个中文语言分析器和一个IndexFilter
插件,所以我想读取索引来验证我的插件。而且,我想对使用Java进行爬网的数据执行一些过程。
使用luke tool来浏览nutch索引。转储索引选项可以为整个索引创建一个xml文件。如果你必须通过代码来完成,那么你需要学习lucene。
要阅读抓取的内容,请使用nutch segment reader。
嗨,John,很高兴和你沟通。我无法在个人资料页面找到您的电子邮件(实际上,我是新来的)。请寄给我([email protected])。我期待着您的电子邮件。
最好。 – Freedom 2012-04-24 12:00:58