如何抓取一个网站只有域名网址scrapy

我想使用scrapy爬行网站，但没有该网站的网站地图或网页索引。如何使用scrapy抓取网站的所有页面？如何抓取一个网站只有域名网址scrapy

我只需要下载网站的所有页面而不需要提取任何项目。我是否只需要设置蜘蛛规则中的所有链接？但我不知道scrapy是否会以这种方式避免复制网址。

为什么不只是循环浏览网站上的所有链接，并抓取？ – enginefree

@enginefree遍历所有链接是可行的方式，但我不知道如何使用scrapy进行设置。 –

如果你不想要报废项目，那么为什么你想使用scrapy。只需使用任何网站下载器，它会为你做的一切 – user2134226

我只是自己找到答案。使用CrawlSpider类，我们只需要在SgmlLinkExtractor函数中设置变量allow =（）。正如文档所述：

allow（正则表达式（或列表）） - （绝对）url必须匹配才能提取的单个正则表达式（或正则表达式列表）。如果没有给出（或空），它将匹配所有链接。

2013-01-12 19:24:41

回答