我想制作一个通用的抓取工具,可以抓取和抓取任何类型的网站(包括AJAX网站)的所有数据。我已经广泛搜索了互联网,但找不到任何适当的链接可以解释我如何Scrapy和Splash一起可以刮AJAX网站(其中包括分页,表单数据和点击按钮之前页面显示)。我提到的每个链接都告诉我,Javascript网站可以使用Splash渲染,但没有关于使用Splash渲染JS网站的很好的教程/解释。请不要给我有关使用浏览器的解决方案(我想以编程方式执行所有操作,欢迎使用无头浏览器,但我想使用Splash)。如何使用Scrapy和Splash来抓取基于AJAX的网站?
class FlipSpider(CrawlSpider):
name = "flip"
allowed_domains = ["www.amazon.com"]
start_urls = ['https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=mobile']
rules = (Rule(LinkExtractor(), callback='lol', follow=True),
def parse_start_url(self,response):
yield scrapy.Request(response.url, self.lol, meta={'splash':{'endpoint':'render.html','args':{'wait': 5,'iframes':1,}}})
def lol(self, response):
"""
Some code
您是否遵守[飞溅DOC(https://github.com/scrapy-plugins/scrapy-splash#installation)?你确切的问题是什么? –
是的,我做过。 Splash doc只是提到我们可以使用的命令。我想知道如何使用它们来运行一个网站的JavaScript来获取动态内容... – Rohan
那么如果你没有关于飞溅特定的问题或问题,我不会复制粘贴文档...如果你参考对于文档,您应该可以抓取基于JavaScript的网站 –