scrapy-spider

2热度

1回答

我是一名学生，对于一个项目我收集品牌信息。我发现这个网站叫Kit：Kit Page，我想为品牌刮。它有近500页，我在Python 3中编写了一个Scrapy Spider，它遍历每个页面并将列表复制到一个字典中，但我无法弄清xpath或css实际获取列表信息。这里是我的items.py： import scrapy class KitcreatorwebscraperItem(scrapy.

0热度

1回答

如何同时抓取和抓取数据？

这是我第一次使用网络抓取的经验，我不知道我是否做得好。关键是我想同时抓取和抓取数据。得到所有我会刮掉商店他们到MongoDB的链接访问逐一刮其内容 # Crawling: get all links to be scrapped later on class LinkCrawler(Spider): name="link" allowed_domains = ["web

0热度

1回答

Scrapy，开发可伸缩的蜘蛛 - 通过Element属性提取Xpath

因此，我正在从事一个网络抓取项目，主要从20+列表中抽取一堆产品信息（如价格，位置，名称等）网站...到目前为止，我已经创建了一个通用的MasterSpider（类似于这里讨论的：Creating a generic scrapy spider），从中我可以继承和重写，具体取决于网站的特定体系结构。但是，在基本上重复了很多代码并希望使这个项目可扩展后，我开始致力于将我的MaterSpider概括为

1热度

3回答

第一次运行后Scrapy'twisted.internet.error.ReactorNotRestartable'错误

我正在使用CrawlerProcess从脚本运行Scrapy （版本1.4.0）。网址来自用户输入。第一次运行良好，但在第二次，它给出了twisted.internet.error.ReactorNotRestartable错误。所以，程序停留在那里。履带工艺段： process = CrawlerProcess({ 'USER_AGENT': 'Mozilla/4.0 (compat

0热度

1回答

Scrapy：如何刮出条件表中的链接

我是Python和scrapy的总新手，我必须刮完全用表（几乎80表）构建的网站。该网站的结构是这样的： <table> <tr> <td class="header" colspan="2">something</td> </tr> </table> <br/> <table> <tr> <td class="header" colspan="2">something2</t

1热度

1回答

Scrapy - 基于条件爬行

我有以下Scrapy解析方法： def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.add_value('image

0热度

1回答

这个scrapy proxymiddleware为什么重复请求？

我要添加代理与proxymiddleware蜘蛛，但我不知道为什么它过滤重复的请求下面是代码： class TaylorSpider(CrawlSpider): name = 'Taylor' allowed_domains = ['tandfonline.com'] start_urls = ['http://www.tandfonline.com/action/

0热度

1回答

Scrapy-Splash退回图像内容

我正在使用Scrapy-Splash请求获取页面的渲染截图，但我也需要该页面上的图像。我使用流水线来下载这些图像，但我在想 - 这是不是对同一图像发出两个请求？一旦Splash呈现页面，并且一次发送下载请求时。有没有一种方法可以让Scrapy-Splash请求返回图像？

0热度

2回答

Scrapy产生请求，在回调中解析，但使用原函数中的信息

因此，我试图在scrapy中测试一些网页，我的想法是产生一个满足条件的URLS请求，计数页面上的某些项目的数量，然后将原来的状态中恢复真/假取决于... 下面是一些代码来说明我的意思： def filter_categories: if condition: test = yield Request(url=link, callback = self.test_page, d

2热度

1回答

如何从另一个开始Scrapy蜘蛛

我在一个Scrapy项目中有两个蜘蛛。 Spider1抓取页面或整个网站的列表并分析内容。 Spider2使用Splash在Google上获取网址并将该列表传递给Spider1。所以，Spider1抓取和分析内容，并可以在不被Spider2 # coding: utf8 from scrapy.spiders import CrawlSpider import scrapy class