我想从网站上刮取一些数据。Scrapy或Selenium或机械刮擦网页数据?
基本上,网站有一些表格显示并显示大约50条记录。对于更多的记录,用户必须点击某个按钮,这使得ajax调用获得&显示接下来的50条记录。
我以前有关于Selenium webdriver(Python)的知识。我可以在Selenium中很快完成此操作。但是,Selenium是更为自动化的测试工具,速度非常慢。
我做了一些R & D,发现使用Scrapy或Mechanize,我也可以做同样的事情。
我应该为Scrapy还是机械化或Selenium?
你真的在寻找意见。这不是本网站的主要目的。有没有关于这些选项的特别问题? –
我真的很困惑,因为我不知道其他两种技术。 –
用JavaScript刮脸网站可能会变得非常棘手。 Scrapy提供比Mechanize更好的功能来进行大规模的网络爬取和解析,但是在这两种情况下,都需要对网站进行类似于您的网站的反向工程(请求触发按钮,哪些参数,cookies,有效负载等)并在您的代码中重现。 – Rolando