scrapy-spider

    2热度

    1回答

    我是一名学生,对于一个项目我收集品牌信息。我发现这个网站叫Kit:Kit Page,我想为品牌刮。它有近500页,我在Python 3中编写了一个Scrapy Spider,它遍历每个页面并将列表复制到一个字典中,但我无法弄清xpath或css实际获取列表信息。这里是我的items.py: import scrapy class KitcreatorwebscraperItem(scrapy.

    0热度

    1回答

    这是我第一次使用网络抓取的经验,我不知道我是否做得好。关键是我想同时抓取和抓取数据。 得到所有我会刮掉 商店他们到MongoDB的链接 访问逐一刮其内容 # Crawling: get all links to be scrapped later on class LinkCrawler(Spider): name="link" allowed_domains = ["web

    0热度

    1回答

    因此,我正在从事一个网络抓取项目,主要从20+列表中抽取一堆产品信息(如价格,位置,名称等)网站...到目前为止,我已经创建了一个通用的MasterSpider(类似于这里讨论的:Creating a generic scrapy spider),从中我可以继承和重写,具体取决于网站的特定体系结构。但是,在基本上重复了很多代码并希望使这个项目可扩展后,我开始致力于将我的MaterSpider概括为

    1热度

    3回答

    我正在使用CrawlerProcess从脚本运行Scrapy (版本1.4.0)。网址来自用户输入。第一次运行良好,但在第二次,它给出了twisted.internet.error.ReactorNotRestartable错误。所以,程序停留在那里。 履带工艺段: process = CrawlerProcess({ 'USER_AGENT': 'Mozilla/4.0 (compat

    0热度

    1回答

    我是Python和scrapy的总新手,我必须刮完全用表(几乎80表)构建的网站。 该网站的结构是这样的: <table> <tr> <td class="header" colspan="2">something</td> </tr> </table> <br/> <table> <tr> <td class="header" colspan="2">something2</t

    1热度

    1回答

    我有以下Scrapy解析方法: def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.add_value('image

    0热度

    1回答

    我要添加代理与proxymiddleware蜘蛛,但我不知道为什么它过滤重复的请求 下面是代码: class TaylorSpider(CrawlSpider): name = 'Taylor' allowed_domains = ['tandfonline.com'] start_urls = ['http://www.tandfonline.com/action/

    0热度

    1回答

    我正在使用Scrapy-Splash请求获取页面的渲染截图,但我也需要该页面上的图像。我使用流水线来下载这些图像,但我在想 - 这是不是对同一图像发出两个请求?一旦Splash呈现页面,并且一次发送下载请求时。有没有一种方法可以让Scrapy-Splash请求返回图像?

    0热度

    2回答

    因此,我试图在scrapy中测试一些网页,我的想法是产生一个满足条件的URLS请求,计数页面上的某些项目的数量,然后将原来的状态中恢复真/假取决于... 下面是一些代码来说明我的意思: def filter_categories: if condition: test = yield Request(url=link, callback = self.test_page, d

    2热度

    1回答

    我在一个Scrapy项目中有两个蜘蛛。 Spider1抓取页面或整个网站的列表并分析内容。 Spider2使用Splash在Google上获取网址并将该列表传递给Spider1。 所以,Spider1抓取和分析内容,并可以在不被Spider2 # coding: utf8 from scrapy.spiders import CrawlSpider import scrapy class