1
想想看,我有3个环节A
,B
,C
:Scrapy:副刮掉从不同的链接数据,1项/型号
A
和B
是网页链接和C
是它需要一个文件的链接被下载。
我刮刀curently做到这一点:
- 从
A
页:提取元数据,提取链接到页面B
- 从
B
页:提取下载链接C
- 从
C
:下载/保存文件
注1:我用3个不同的Rule
s到提取A
链接,B
链接和C
链接
的问题 的问题是,我不知道如何将项目与关联(元数据从A
页)从链接C
下载的文件。
目前的项目在Rule
为A
链接和文件的解析回调方法创建保存在回调方法为C
链接
的项目和/或模型,(我使用SQLAlchemy用于存储在数据库中,使用管道)需要包含元数据+下载文件的名称。
有没有人有关于的想法如何将元数据与下载文件的名称关联?
注2:我使用的规则系统,因为它可以用新的规则很容易地扩展和规则,可以在其他蜘蛛被重用。
http://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.Request.meta – Girish