2013-01-05 112 views
2

我想使用scrapy爬行网站,但没有该网站的网站地图或网页索引。如何使用scrapy抓取网站的所有页面?如何抓取一个网站只有域名网址scrapy

我只需要下载网站的所有页面而不需要提取任何项目。我是否只需要设置蜘蛛规则中的所有链接?但我不知道scrapy是否会以这种方式避免复制网址。

+0

为什么不只是循环浏览网站上的所有链接,并抓取? – enginefree

+0

@enginefree遍历所有链接是可行的方式,但我不知道如何使用scrapy进行设置。 –

+0

如果你不想要报废项目,那么为什么你想使用scrapy。只需使用任何网站下载器,它会为你做的一切 – user2134226

回答

2

我只是自己找到答案。使用CrawlSpider类,我们只需要在SgmlLinkExtractor函数中设置变量allow =()。正如文档所述:

allow(正则表达式(或列表)) - (绝对)url必须匹配才能提取的单个正则表达式(或正则表达式列表)。如果没有给出(或空),它将匹配所有链接。

http://doc.scrapy.org/en/latest/topics/link-extractors.html#topics-link-extractors