我有兴趣为分类构建一个网络爬虫。抓取的分类广告的问题是这些项目不断到期。当用户在我的网站上搜索时,如果列表已过期,是否有方法可以“即时”检查?抓取分类网站后,如何检查列表是否已过期?
基本上,如果我的页面显示20条记录,如何检查这是否过期?有没有办法检查“即时”?隐藏此记录,而不是将其显示给用户?也许一个.js脚本checksDeletedRecords()
?
http://carsforsale.com/used_cars_for_sale/2004_Honda_Civic_136820531
问题在于cronjob_time&now之间仍然存在时间差。有没有办法在运行中检查结果? – phpboy
如果你能弄清楚什么时候上市最有可能过期并将其存储在您的最终目标中,您可以随时进行此操作,正如我所描述的那样。实时操作并不可行 - 并且不可取 –
我已经看到分类的聚合器网站,它们会使重复或过期的记录崩溃。在飞行中。它的响应非常好...... – phpboy