如何查看/编辑/避免重复scrapy？

我只是想知道如何重置dupefilter过程，以避免一定数量的url被过滤。事实上，我测试了履带很多次成功之前，现在，我想的东西像scrapy crawl quotes -o test_new.csv -s JOBDIR=crawls/quotes_new-1 它不断告诉我，一些URL被复制，然后没去过运行它..如何查看/编辑/避免重复scrapy？

将是绝对OK从该履带删除所有URL
将不胜感激知道在哪里重复URL过滤（然后我可以编辑？）
请求无过滤器是不可能与我的问题，因为它会循环

我可以添加我的代码，但因为这是一个普遍的问题，所以我觉得它会比任何事情都更令人困惑。只要问你是否需要它:)

非常感谢你，

来源

2016-12-29 Bergenist

您可以设置scrapys DUPEFILTER_CLASS设置用自己的dupefilter类或只是更改扩展默认RFPDupeFilter（source code）类。

本文档pages explains a bit more：

默认（RFPDupeFilter）的基础上使用scrapy.utils.request.request_fingerprint功能请求指纹过滤器。

为了改变重复检查的方式，您可以继承RFPDupeFilter并覆盖它的request_fingerprint方法。该方法应接受scrapy Request对象并返回其指纹（字符串）。

来源

2016-12-29 10:40:33 Granitosaurus

谢谢！这对我来说有点复杂，但我会弄明白的！ – Bergenist

如何查看/编辑/避免重复scrapy？

回答

相关问题