我知道使用Python的美丽汤来刮取HTML的基本知识。但是,this soccer statistics页面会进行AJAX调用以获取玩家播放的分钟数据。 (我使用萤火虫识别网络通话)。使用Python刮取带有AJAX的网页
我的问题:是否有可能使用python来“刮”这些信息?我应该知道哪些工具需要和HTML以外的内容? (我目前正在阅读JavaScript和AJAX)。
我对这个非特定问题表示歉意,但我甚至不知道如何向Google提供可能存在或不存在的工具。
更新:几天后,我想出了一个解决方案,使用Python中的Selenium
与PhantomJS
一起使用。我基本上使用Selenium
去每个链接,等待页面加载,然后刮掉信息。 PhantomJS
作为Selenium
中的无头网络驱动器。
我明白为什么mod想要关闭这个,但是人们给我的建议非常有帮助,因为他们将我推向了正确的方向。我的问题并没有太多关于什么工具是最好的,但更多关于我如何在Python中做到这一点。
[Selenium](https://pypi.python.org/pypi/selenium)是另一种选择。 – thirtydot
我听说过它提到过。但是Selenium使用Python,下面的海报表示Python不是正确的工具...? – Heisenberg
PhantomJS和Selenium都是很好的选择,您的问题可以轻松解决任何一个问题。 Anurag Uniyal只意味着你应该使用一些利用真实浏览器的东西,而不是仅仅解析HTML并且不能执行JavaScript的Beautiful Soup。 – thirtydot