2
我想使用scrapy爬行网站,但没有该网站的网站地图或网页索引。如何使用scrapy抓取网站的所有页面?如何抓取一个网站只有域名网址scrapy
我只需要下载网站的所有页面而不需要提取任何项目。我是否只需要设置蜘蛛规则中的所有链接?但我不知道scrapy是否会以这种方式避免复制网址。
我想使用scrapy爬行网站,但没有该网站的网站地图或网页索引。如何使用scrapy抓取网站的所有页面?如何抓取一个网站只有域名网址scrapy
我只需要下载网站的所有页面而不需要提取任何项目。我是否只需要设置蜘蛛规则中的所有链接?但我不知道scrapy是否会以这种方式避免复制网址。
我只是自己找到答案。使用CrawlSpider类,我们只需要在SgmlLinkExtractor函数中设置变量allow =()。正如文档所述:
allow(正则表达式(或列表)) - (绝对)url必须匹配才能提取的单个正则表达式(或正则表达式列表)。如果没有给出(或空),它将匹配所有链接。
http://doc.scrapy.org/en/latest/topics/link-extractors.html#topics-link-extractors
为什么不只是循环浏览网站上的所有链接,并抓取? – enginefree
@enginefree遍历所有链接是可行的方式,但我不知道如何使用scrapy进行设置。 –
如果你不想要报废项目,那么为什么你想使用scrapy。只需使用任何网站下载器,它会为你做的一切 – user2134226