scrapy-spider

1热度

2回答

是否可以按照与它们关联的日期刮取链接？我试图实现一个每日运行的蜘蛛，它将文章信息保存到数据库中，但我不想重新刮掉我以前已经刮过的文章 - 例如昨天的文章。我跑过this SO帖子询问同样的事情，并建议scrapy-deltafetch plugin。但是，这依赖于检查存储在数据库中以前保存的request fingerprints的新请求。我假设，如果每天都在进行一段时间的挖掘，那么就需要在数据

0热度

2回答

我应该怎么做才能启用Cookie并使用scrapy来访问此网址？

我使用scrapy的scrapying项目，这个网址https://www.walmart.ca/en/clothing-shoes-accessories/men/mens-tops/N-2566+11 我试图与URL玩，在外壳打开它，但它得到430错误，所以我加入到这样的标题一些设置： scrapy壳-s COOKIES_ENABLED = 1 -s USER_AGENT = '的Mozill

4热度

1回答

Scrapy是过滤唯一的网址为重复的URL

网址： http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=1 http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=2是独一无二的，但scrapy是过滤这些URL为重复，不刮他们。我使用

0热度

1回答

创建一个通用scrapy蜘蛛和多个特定的

我正在尝试创建一个通用蜘蛛，它负责处理最常见的任务和特定的蜘蛛，它们继承通用的蜘蛛并声明网站特定的变量。还有就是genericspider.py： # -*- coding: utf-8 -*- import scrapy from scrapy.spiders import Spider, CrawlSpider class GenericProductSpider(scrapy.Sp

0热度

1回答

定制BaseSpider Scrapy

我想为自定义基本蜘蛛类中的蜘蛛提供一些通用功能。通常scrapy蜘蛛继承scrapy.Spider类。我试图创造scrapy的蜘蛛文件夹BaseSpider类，没有工作 import scrapy class BaseSpider(scrapy.Spider): def __init__(self): super(scrapy.Spider).__init__()

0热度

1回答

无法访问子实例中的父实例varibale

我正在研究scrapy框架。我有一些共同的属性，我想要所有的蜘蛛，所以我做了一个BaseSpider。 BaseSpider import scrapy from src.LoggerFactory import get_logger import ConfigParser from redis import Redis class BaseSpider(scrapy.Spider)

2热度

2回答

Scrapy - 无法提出额外的请求在XMLFeedSpider

我有一个scrapy蜘蛛，使用XMLFeedSpider。除了为parse_node()中的每个节点返回的数据外，我还需要额外请求获取更多数据。唯一的问题是，如果我得到来自parse_node()没有额外的请求被退回所有： class MySpidersSpider(XMLFeedSpider): name = "myspiders" namespaces = [('g', '

0热度

1回答

Scrapy抓取蜘蛛，下面麻烦链接

我知道有与此相关的有十几个问题，但没有，我看到他们的真正的蜘蛛有一种以上的方法... 所以我刮网站，从类别页面开始。我抓取了产品类别的链接，然后尝试利用抓取蜘蛛的规则自动遍历每个类别的“下一页”页面，在每一步中抓取页面中的某些信息。问题是，我只是转到每个类别的第一页，并且似乎忽略了我设置的Rule = True方面。因此，这里的代码，也许需要一些帮助： start_urls = ["http:/

0热度

1回答

如何从网页的身体提取数据，我们有动态谷歌广告之间的内容使用scrapy

我试图从“拉利特卡拉Akademi奖学金2017 - 2018年从...” 到 “电子邮件：[email protected]; [email protected]网站：lalitkala.gov.in” 但我的输出是许多 “\ n” 和 “\ t” 的。我猜这是由于之间的adwords造成的。任何想法如何解决这个问题？ import scrapy class MySpider(scrapy.

0热度

1回答

需要帮助YellowPages蜘蛛

我是scrapy的新手，到目前为止我已经能够创建几个蜘蛛。我想写一个抓取Yellowpages的蜘蛛，寻找具有404响应的网站，蜘蛛工作正常，但是，分页不起作用。任何帮助都感激不尽。在此先感谢 # -*- coding: utf-8 -*- import scrapy class SpiderSpider(scrapy.Spider): name = 'spider'