2017-04-25 43 views
0

建立Scrapy:命令覆盖以前的导出文件

我由标准命令在终端(Mac OS)中我的数据导出到.csv文件,例如

scrapy crawl spider -o spider_ouput.csv 

问题

当导出一个新spider_output.csv Scrapy其追加到现有spider_output.csv

我能想到的两种解决方案,

  1. 命令Scrapy覆盖,而不是追加
  2. 指令端子,除去爬行

我读过现有spider_output.csv之前(以我的惊喜)目前Scrapy正在做isn't able 1.有人提议workarounds,但我似乎无法得到it的工作。

我找到了解决方案2的answer,但无法使其工作。

有人可以帮我吗?也许有第三种解决方案我没有想到?

回答

3

有一个未决问题,scrapy此功能: https://github.com/scrapy/scrapy/issues/547

里有问题线程提出了一些解决方案:

scrapy runspider spider.py -t json --nolog -o - > out.json 

或跑步scrapy蜘蛛之前只是删除输出:

rm data.jl; scrapy crawl myspider -o data.jl 
+0

谢谢你的回答。我试过你的删除线,它的工作原理! :) – LucSpan

+0

@LucSpan很棒,如果它回答了你的问题,请不要忘记点击答案左侧的“接受答案”按钮。 – Granitosaurus

+0

你太快了:还不能接受。 – LucSpan