2017-06-28 63 views
0

我注意到在每次Nutch抓取过程中,发送到Solr的索引都不一致。有时会显示网页的最新更改,有时会显示较旧的更改。Nutch抓取 - 在每个抓取影响中删除分段

原因

注意到,Nutch的是从一个旧的到Solr给索引。

目前的解决方案

删除读取前所有旧片段,似乎解决问题。

问题

想知道是否有或这种方法的任何影响我的理解,这是不正确。还想知道为什么Nutch不会在抓取过程中自动删除旧版细分。

谢谢。

回答

0

如果多个分段(再次)被编入索引并且两个或更多分段中包含相同的分段,则不保证对最新版本进行索引。这是一个已知的问题(NUTCH-1416)。最简单的解决方案是仅将最近获取的片段发送给索引器。脚本bin/crawl这样做,索引步骤在本周期中获取的分段的每个周期结束时完成。