2012-02-25 73 views

回答

2

nutch模式将id(= url)定义为唯一键。如果这对你不好,那就改变它。在schema.xml对应的线路:

<uniqueKey>url</uniqueKey> 

但更好的解决方案可能是做到以下几点:如果你能

http://www.example.com 

访问您的服务器,并通过

http://example.com 

你应该考虑使用正则表达式url筛选器来仅抓取其中的一个,以防止重复。