1
我正在研究一种搜索引擎,例如可以抓取网站,收集数据,将其编入索引并在应用程序中进行搜索的工具。
我将使用Net::HTTP
或Hpricot
来抓取网站。
我正在爬行的网站是论坛,它保留每个线程的意见和回复计数。每当我通过查看计数将会增加。在不增加页面浏览的情况下抓取网页
有什么办法可以避免这种情况?搜索引擎如何爬行而不增加查看次数?
我正在研究一种搜索引擎,例如可以抓取网站,收集数据,将其编入索引并在应用程序中进行搜索的工具。
我将使用Net::HTTP
或Hpricot
来抓取网站。
我正在爬行的网站是论坛,它保留每个线程的意见和回复计数。每当我通过查看计数将会增加。在不增加页面浏览的情况下抓取网页
有什么办法可以避免这种情况?搜索引擎如何爬行而不增加查看次数?
这取决于远程站点如何增加其计数器。如果他们考虑到User-Agent
标题,你可以利用它。如果他们的计数器通过javascript增加(如Google Analytics),则Net::HTTP
不应触发更改。