2
我有两个内容相同但网址不同的网页。一个URL以http://www.example.com开头,另一个以http://example.com开头。在使用Solrdedup删除Solr中的重复数据之后。我发现这两个人都在那里。有人知道这里发生了什么吗?为什么Nutch Solrdedup无法删除重复的网页
我有两个内容相同但网址不同的网页。一个URL以http://www.example.com开头,另一个以http://example.com开头。在使用Solrdedup删除Solr中的重复数据之后。我发现这两个人都在那里。有人知道这里发生了什么吗?为什么Nutch Solrdedup无法删除重复的网页
nutch模式将id(= url)定义为唯一键。如果这对你不好,那就改变它。在schema.xml
对应的线路:
<uniqueKey>url</uniqueKey>
但更好的解决方案可能是做到以下几点:如果你能
http://www.example.com
访问您的服务器,并通过
http://example.com
你应该考虑使用正则表达式url筛选器来仅抓取其中的一个,以防止重复。