我只是想知道如何重置dupefilter过程,以避免一定数量的url被过滤。 事实上,我测试了履带很多次成功之前,现在,我想的东西像scrapy crawl quotes -o test_new.csv -s JOBDIR=crawls/quotes_new-1
它不断告诉我,一些URL被复制,然后没去过运行它..如何查看/编辑/避免重复scrapy?
- 将是绝对OK从该履带删除所有URL
- 将不胜感激知道在哪里重复URL过滤(然后我可以编辑?)
- 请求无过滤器是不可能与我的问题,因为它会循环
我可以添加我的代码,但因为这是一个普遍的问题,所以我觉得它会比任何事情都更令人困惑。只要问你是否需要它:)
非常感谢你,
谢谢!这对我来说有点复杂,但我会弄明白的! – Bergenist