2014-02-12 51 views
0

我正在研究一个项目,该项目需要cron在一次运行中删除数千个网页。 我发现了Google上的很多链接,但找不到任何合适的解决方案。我已经使用file_get_contents,cURL等,但脚本总是在执行过程中失败。我在共享服务器上托管了我的网站。刮成千上万的网页

而且我也想每天抓取网页的数据。如果有人能够为我的问题找到正确的解决方案,那将会非常有帮助。

+0

发布您尝试过的代码,我们可以帮助您进行调试。 – Grant

+0

那么你的问题是什么?你已经做了什么?如果您希望我们为您提供解决方案,那么这个问题可能会以意见为基础关闭。 –

回答

0

根据您选择的语言。你可以使用

  1. file_get_content或同等功能的lanugaue
0

你应该上的cron分裂您的要求。 它不会使用wget或curl。由于时间或内存限制,您的脚本将失败。 例如,您可以分割你的cron作业:

wget http://yoursite.com/yourCrawler.php?group=0 
wget http://yoursite.com/yourCrawler.php?group=1 
wget http://yoursite.com/yourCrawler.php?group=2 

等,并且还你应该让你的履带式变革,以支持分裂。