2011-11-12 83 views
0

我使用Scrapy(一种Python网页抓取框架)从网站上下载PDF文件。使用Scrapy下载PDF文件

该网站需要遵循同一届会议,以便让您下载pdf。

它适用于Scrapy's,因为它全部自动化,但是当我在几秒钟后运行脚本时,它开始给我假pdf文件,例如当我尝试直接访问pdf时,没有我的会话。

这是为什么&怎么解决这个问题?

+3

要求他们慢?我敢打赌,他们是限速你。 – kindall

+0

你是对的,但它需要更长的时间和下载速度我无法完成我的任务,因为需要下载大量的PDF文件。 – Kex

回答

0

我认为该网站会跟踪您的会话。如果它是一个PHP站点,请将PHPSESSID cookie传递给下载PDF文件的请求。