2015-05-04 159 views
0

当我尝试抓取应用商店时,我的问题就开始了,我们可以说google play。 每个应用程序都有很多评论,我想抓取他们快。 但是google中的注释部分是由java脚本生成的。 这里是一个链接例如:https://play.google.com/store/apps/details?id=com.gameloft.android.ANMP.GloftAMHM在该链接中,您可以看到为了生成更多评论,您需要多次单击按钮。 (在5-6点击aprox之后)页面通过执行javascript生成更多评论。有没有一种简单快捷的方式来生成JavaScript?

起初,我使用网络驱动程序(firefox)解决了这个问题,并模拟真人点击按钮,并生成评论,他一直按住,直到生成所有评论。

问题是:1,需要太多时间。 2,有时在点击和JS代之后,Web浏览器无法响应。

我需要的是一种以更好,更快的方式为每个应用程序生成所有注释的方法。也许是某种技术,或者其他任何可以改善我的解决方案的东西,

我正在使用我在scrapy中创建的蜘蛛。

所有形式的帮助将非常感激

回答

0

一个它们所产生/显示附加注释的原因正是他们不希望有人来抓取他们......另一种是初始页面没有加载他们(更快),只有当有人开始阅读评论,以显示更多..

除非他们提供了一个API,你可以一次拉所有的评论,我没有看到另一个快速拉他们的方式,除了模拟点击和滚动...(缓慢的做法)

0

您是否尊重robots.txt?为什么或者为什么不?

+0

如果您引用了play.google.com/robots.txt - > Disallow:/ apps,只需轻松在应用程序中测试此功能即可。我现在尝试开发这个功能,不管robots.txt是什么(所以现在,我没有解决这个问题)。 – Eran

相关问题