scrapy-spider

    1热度

    2回答

    是否可以按照与它们关联的日期刮取链接?我试图实现一个每日运行的蜘蛛,它将文章信息保存到数据库中,但我不想重新刮掉我以前已经刮过的文章 - 例如昨天的文章。我跑过this SO帖子询问同样的事情,并建议scrapy-deltafetch plugin。 但是,这依赖于检查存储在数据库中以前保存的request fingerprints的新请求。我假设,如果每天都在进行一段时间的挖掘,那么就需要在数据

    0热度

    2回答

    我使用scrapy的scrapying项目,这个网址https://www.walmart.ca/en/clothing-shoes-accessories/men/mens-tops/N-2566+11 我试图与URL玩,在外壳打开它,但它得到430错误,所以我加入到这样的标题一些设置: scrapy壳-s COOKIES_ENABLED = 1 -s USER_AGENT = '的Mozill

    4热度

    1回答

    网址: http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=1 http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=2是独一无二的,但scrapy是过滤这些URL为重复,不刮他们。 我使用

    0热度

    1回答

    我正在尝试创建一个通用蜘蛛,它负责处理最常见的任务和特定的蜘蛛,它们继承通用的蜘蛛并声明网站特定的变量。 还有就是genericspider.py: # -*- coding: utf-8 -*- import scrapy from scrapy.spiders import Spider, CrawlSpider class GenericProductSpider(scrapy.Sp

    0热度

    1回答

    我想为自定义基本蜘蛛类中的蜘蛛提供一些通用功能。 通常scrapy蜘蛛继承scrapy.Spider类。 我试图创造scrapy的蜘蛛文件夹BaseSpider类,没有工作 import scrapy class BaseSpider(scrapy.Spider): def __init__(self): super(scrapy.Spider).__init__()

    0热度

    1回答

    我正在研究scrapy框架。 我有一些共同的属性,我想要所有的蜘蛛,所以我做了一个BaseSpider。 BaseSpider import scrapy from src.LoggerFactory import get_logger import ConfigParser from redis import Redis class BaseSpider(scrapy.Spider)

    2热度

    2回答

    我有一个scrapy蜘蛛,使用XMLFeedSpider。除了为parse_node()中的每个节点返回的数据外,我还需要额外请求获取更多数据。唯一的问题是,如果我得到来自parse_node()没有额外的请求被退回所有: class MySpidersSpider(XMLFeedSpider): name = "myspiders" namespaces = [('g', '

    0热度

    1回答

    我知道有与此相关的有十几个问题,但没有,我看到他们的真正的蜘蛛有一种以上的方法... 所以我刮网站,从类别页面开始。我抓取了产品类别的链接,然后尝试利用抓取蜘蛛的规则自动遍历每个类别的“下一页”页面,在每一步中抓取页面中的某些信息。 问题是,我只是转到每个类别的第一页,并且似乎忽略了我设置的Rule = True方面。因此,这里的代码,也许需要一些帮助: start_urls = ["http:/

    0热度

    1回答

    我试图从“拉利特卡拉Akademi奖学金2017 - 2018年从...” 到 “电子邮件:[email protected]; [email protected]网站:lalitkala.gov.in” 但我的输出是许多 “\ n” 和 “\ t” 的。我猜这是由于之间的adwords造成的。任何想法如何解决这个问题? import scrapy class MySpider(scrapy.

    0热度

    1回答

    我是scrapy的新手,到目前为止我已经能够创建几个蜘蛛。我想写一个抓取Yellowpages的蜘蛛,寻找具有404响应的网站,蜘蛛工作正常,但是,分页不起作用。任何帮助都感激不尽。在此先感谢 # -*- coding: utf-8 -*- import scrapy class SpiderSpider(scrapy.Spider): name = 'spider'