2016-12-29 52 views
0

我只是想知道如何重置dupefilter过程,以避免一定数量的url被过滤。 事实上,我测试了履带很多次成功之前,现在,我想的东西像scrapy crawl quotes -o test_new.csv -s JOBDIR=crawls/quotes_new-1 它不断告诉我,一些URL被复制,然后没去过运行它..如何查看/编辑/避免重复scrapy?

  • 将是绝对OK从该履带删除所有URL
  • 将不胜感激知道在哪里重复URL过滤(然后我可以编辑?)
  • 请求无过滤器是不可能与我的问题,因为它会循环

我可以添加我的代码,但因为这是一个普遍的问题,所以我觉得它会比任何事情都更令人困惑。只要问你是否需要它:)

非常感谢你,

回答

0

您可以设置scrapys DUPEFILTER_CLASS设置用自己的dupefilter类或只是更改扩展默认RFPDupeFiltersource code)类。

本文档pages explains a bit more

默认(RFPDupeFilter)的基础上使用scrapy.utils.request.request_fingerprint功能请求指纹过滤器。

为了改变重复检查的方式,您可以继承RFPDupeFilter并覆盖它的request_fingerprint方法。该方法应接受scrapy Request对象并返回其指纹(字符串)。

+0

谢谢!这对我来说有点复杂,但我会弄明白的! – Bergenist