2011-08-20 85 views
0

OI想要从第三方网站检索和刮取大量关于用户的数据。一旦这个人登录,我从第三方网站上获取他们的数据并进行刮擦。我如何最有效地做到这一点,以防止服务器上的重大负载,并确保页面加载速度不会太慢?我正在考虑设置一个后台进程来检索数据并将进程设置为低优先级。你们对我有其他建议吗?检索并从第三方网站抓取大量数据

我正在使用PHP和Mysql。

回答

0

Data Scraping - Wikipedia

就是这个数据废弃你在说什么?如果是,我们可能需要更多细节才能提供帮助。

  • 你怎么知道用户登录?
  • 您对第三方系统有什么样的访问权限?
+0

基本上我想从Twitter获得大量关于用户的数据。我只是想知道这样做的有效方式是不会减慢页面并产生有效的负载。我正在考虑让用户登录,并且之后有一个低优先级的后台进程获取有关用户的数据,因为它有很多数据。 –

0

为了准确回答,需要更多信息。为了指向正确的方向,您应该使用cURL将网页加载到字符串中。然后使用PHP DOM解析器来解析页面。如果您正在寻找页面中的特定元素,那么DOM XPATH查询将很有用(http://php.net/manual/en/class.domxpath.php)。或者,您可以使用DOM-> LoadHTML()直接加载页面,但选项较少。