scrapy-spider

0热度

1回答

如何为monster.com创建抓取工具来抓取所有页面。对于“下一页”链接，monster.com调用JavaScript函数，但scrapy不承认的JavaScript 这里是我的代码，它不工作的分页： import scrapy class MonsterComSpider(scrapy.Spider): name = 'monster.com' allowed_doma

-1热度

1回答

在scrapy中选择文件名

我有一个url列表，每个url都与一个唯一的ID相关联。我想使用scrapy下载每个URL并将它们保存在一个以其唯一ID命名的文件中。我通过一个基本的教程去了，有下面的代码，但不知道我怎样才能获得UID，同时节省解析后的文件 - import scrapy import json class QuotesSpider(scrapy.Spider): name = "quotes"

0热度

1回答

Scrapy如何抓取二级分页或嵌套分页

我想抓取Catalog的分页列表，其中正常工作。但每个Catalog存在的DataSet但只有第一页那边在结果出现一个分页列表。我试图得到看起来像这样的结果，但所有24节点都应该在那里对应于24 DataSet跨越每个页面上的6个项目。 [{'data_sets_count': 24, 'description': 'The catalog contains data regardin

0热度

1回答

我们怎样才能提取元素值，如果元素的属性是动态变化

如何，我们可以通过使用xpth或CSS选择提取值，如果属性被动态地改变，例如： <p data-reactid=".2e46q6vkxnc.1.$0"> <b data-reactid=".2e46q6vkxnc.1.$0.0">Mark Obtain</b> <i class="avu-full-width" data-reactid=".2e46q6vkxnc.1.$0.1

0热度

1回答

如何在scrapy中执行多种方法

def parse(self,response): print("parse!!!!!!!!!!!!!!!!!!!") yield scrapy.Request("http://xx.com", callback=self.parseHeader,meta={'item': item}) yield scrapy.Request("http://xx.com ", c

0热度

1回答

如何根据scrapy中日志条目的来源选择性地设置log_level？

是否可以将[scrapy.core.engine]和[scrapy.extensions.logstats]的日志级别设置为'INFO'以及我的自定义记录器并将其他设置设置为'WARNING'？我想这样做是为了从我的日志文件中删除一些混乱的东西。在此先感谢！编辑：我想这样做在this答案描述如下： DEFAULT_LOGGING = { 'version': 1, 'di

0热度

1回答

无法将某些字段从一种方法传递到另一种方法

我试图用python scrapy创建一个解析器，它应该从网页中提取一些字段。我在这里面临的问题是，我无法以正确的方式将参数传递给蜘蛛类中的“target_page”方法。我知道我将“标题”和“值”字段从“parse”方法传递给“target_page”的方式并不是pythonic。但是，我做到了，因为我真的不知道如何以正确的方式在“target_page”方法中传递上述字段。我该怎么做？提前致谢

-2热度

3回答

我怎样才能增加链接

我有一个链接：https://www.glassdoor.ca/Job/canada-data-jobs-SRCH_IL.0,6_IN3_KE7,11_IP1.htm 我想增加这样的链接：https://www.glassdoor.ca/Job/canada-data-jobs-SRCH_IL.0,6_IN3_KE7,11_IP2.htm 然后3,4,5 .... 我的代码是： # -*- cod

0热度

1回答

scrapy：不同的网址

在向URL发送请求时遇到问题。虽然在主要页面检查我得到的URL在HREF作为但是，当链接变得开放，这似乎是：两个链接是不同的，我怎么能弥补这方面的要求。这里就是我说壳：

0热度

1回答

Scrapy + Selenium问题

我试图使用Selenium和Scrapy（请参阅下面的代码）来抓取英国着名零售商的网站。我得到一个[scrapy.core.scraper] ERROR: Spider error processing，不知道还有什么要做的（一直呆了三个小时左右）。感谢你的支持。 import scrapy from selenium import webdriver from nl_scrape.items