这是我第一次使用网络抓取的经验,我不知道我是否做得好。关键是我想同时抓取和抓取数据。 得到所有我会刮掉 商店他们到MongoDB的链接 访问逐一刮其内容 # Crawling: get all links to be scrapped later on
class LinkCrawler(Spider):
name="link"
allowed_domains = ["web
因此,我正在从事一个网络抓取项目,主要从20+列表中抽取一堆产品信息(如价格,位置,名称等)网站...到目前为止,我已经创建了一个通用的MasterSpider(类似于这里讨论的:Creating a generic scrapy spider),从中我可以继承和重写,具体取决于网站的特定体系结构。但是,在基本上重复了很多代码并希望使这个项目可扩展后,我开始致力于将我的MaterSpider概括为
因此,我试图在scrapy中测试一些网页,我的想法是产生一个满足条件的URLS请求,计数页面上的某些项目的数量,然后将原来的状态中恢复真/假取决于... 下面是一些代码来说明我的意思: def filter_categories:
if condition:
test = yield Request(url=link, callback = self.test_page, d