如何配置scrapy以毫无延迟地写入csv。Scrapy无延迟地写入csv
如果我运行了scrapy crawl spider_1
并且假设spider_1
有预期的200个项目,那么scrapy将会以csv写入,但是按批次写入。我不知道在哪里配置这个。
我试过
CONCURRENT_REQUESTS = 1
CONCURRENT_ITEMS = 1
但它仍然在csv文件通过15+批次写道。
这里是他们的方式我测试了它..
while sleep 2; do cat results/price.csv | wc -l; done;
结果
0
35
35
35
35
52
52
52
52
70
70
注意,它写入第一32th
项目则20th
然后18th
。
我想要的是在获取数据后立即写入项目。 我该怎么做?
scrapy不做同步请求。它发出很多请求并等待响应。因此你不会得到序列输出。 –
你可能想看看['CsvItemExporter'](https://github.com/scrapy/scrapy/blob/dfe6d3d59aa3de7a96c1883d0f3f576ba5994aa9/scrapy/exporters.py#L206)是如何实现的,尤其是, '.export_item()'。 –
我有类似的问题。我做了什么,我把所有的数据写入mongodb,然后写出所有的数据 –