2011-03-23 77 views
1

我正在研究一种搜索引擎,例如可以抓取网站,收集数据,将其编入索引并在应用程序中进行搜索的工具。
我将使用Net::HTTPHpricot来抓取网站。
我正在爬行的网站是论坛,它保留每个线程的意见和回复计数。每当我通过查看计数将会增加。在不增加页面浏览的情况下抓取网页

有什么办法可以避免这种情况?搜索引擎如何爬行而不增加查看次数?

回答

1

这取决于远程站点如何增加其计数器。如果他们考虑到User-Agent标题,你可以利用它。如果他们的计数器通过javascript增加(如Google Analytics),则Net::HTTP不应触发更改。

相关问题