如何使用Scrapy下载我所有的Quora答案？

-1

我试图使用Scrapy来下载我的Quora答案，但我似乎无法下载我的页面。使用简单如何使用Scrapy下载我所有的Quora答案？

scrapy shell 'http://it.quora.com/profile/Ferdinando-Randisi'

返回该错误

2017-10-05 22:16:52 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: quora) 
2017-10-05 22:16:52 [scrapy.utils.log] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'quora.spiders', 'ROBOTSTXT_OBEY': True, 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', 'SPIDER_MODULES': \[quora.spiders'], 'BOT_NAME': 'quora', 'LOGSTATS_INTERVAL': 0} 
.... 
2017-10-05 22:16:53 [scrapy.middleware] INFO: Enabled item pipelines: 
[] 
2017-10-05 22:16:53 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023 
2017-10-05 22:16:53 [scrapy.core.engine] INFO: Spider opened 
2017-10-05 22:16:54 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://it.quora.com/robots.txt> from <GET http://it.quora.com/robots.txt> 
2017-10-05 22:16:55 [scrapy.core.engine] DEBUG: Crawled (429) <GET https://it.quora.com/robots.txt> (referer: None) 
2017-10-05 22:16:55 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://it.quora.com/profile/Ferdinando-Randisi> from <GET http://it.quora.com/profile/Ferdinando-Randisi> 
2017-10-05 22:16:56 [scrapy.core.engine] DEBUG: Crawled (429) <GET https://it.quora.com/profile/Ferdinando-Randisi> (referer: None) 
2017-10-05 22:16:58 [root] DEBUG: Using default logger

有什么不对？错误429与太多请求相关联，但我只提出一个请求。为什么这会太多？

来源

2017-10-05 Ferdinando Randisi

阅读['robots.txt']（https://www.quora.com/robots.txt）。 – tadman

我做过了，但没有看到任何太相关的内容 - 他们只会写关于如何使用搜索引擎让他们知道的内容，并解释他们为什么不喜欢人们下载每个人的内容。我没有做这些事情，我只是想要我的答案。 –

试着用'卷曲'来看看会发生什么。 – tadman

它根据用户代理字符串阻止Scrapy。尝试模仿例如Chromium：

scrapy shell "http://it.quora.com/profile/Ferdinando-Randisi" -s USER_AGENT="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.52 Safari/537.36"

来源

2017-10-06 05:02:52

工作！干杯:) –

如何使用Scrapy下载我所有的Quora答案？

回答

相关问题