2014-06-18 41 views
0

我使用nutch 1.8从同一领域有不同模式的网站抓取信息。我正在为每个网站编写插件,但是当我启动nutch时,只是第一个插件与所有站点匹配,而其他插件则不匹配,因为它们不存在。用nutch 1.8爬行不同的网站

如果第一个插件与站点不匹配,请跳到下一个插件并检查它们等,直到找到正确的站点插件为止?

回答

0

不清楚你为什么这样做。你在写一个HTMLParseFilter吗?你可以做的是退出解析方法,如果当前文档的URL不匹配给定的模式,或者传递种子中的一些元数据,你可以使用它来确定使用哪个HTMLParseFilter实现。

顺便说一句,你会通过在Nutch用户列表上发布更多相关观众(请参阅http://nutch.apache.org/mailing_lists.html