scrapy-spider

    0热度

    1回答

    如何为monster.com创建抓取工具来抓取所有页面。对于“下一页”链接,monster.com调用JavaScript函数,但scrapy不承认的JavaScript 这里是我的代码,它不工作的分页: import scrapy class MonsterComSpider(scrapy.Spider): name = 'monster.com' allowed_doma

    -1热度

    1回答

    我有一个url列表,每个url都与一个唯一的ID相关联。我想使用scrapy下载每个URL并将它们保存在一个以其唯一ID命名的文件中。我通过一个基本的教程去了,有下面的代码,但不知道我怎样才能获得UID,同时节省解析后的文件 - import scrapy import json class QuotesSpider(scrapy.Spider): name = "quotes"

    0热度

    1回答

    我想抓取Catalog的分页列表,其中正常工作。 但每个Catalog存在的DataSet但只有第一页那边在结果出现一个分页列表。我试图得到看起来像这样的结果,但所有24节点都应该在那里对应于24 DataSet跨越每个页面上的6个项目。 [{'data_sets_count': 24, 'description': 'The catalog contains data regardin

    0热度

    1回答

    如何,我们可以通过使用xpth或CSS选择提取值,如果属性被动态地改变,例如: <p data-reactid=".2e46q6vkxnc.1.$0"> <b data-reactid=".2e46q6vkxnc.1.$0.0">Mark Obtain</b> <i class="avu-full-width" data-reactid=".2e46q6vkxnc.1.$0.1

    0热度

    1回答

    def parse(self,response): print("parse!!!!!!!!!!!!!!!!!!!") yield scrapy.Request("http://xx.com", callback=self.parseHeader,meta={'item': item}) yield scrapy.Request("http://xx.com ", c

    0热度

    1回答

    是否可以将[scrapy.core.engine]和[scrapy.extensions.logstats]的日志级别设置为'INFO'以及我的自定义记录器并将其他设置设置为'WARNING'?我想这样做是为了从我的日志文件中删除一些混乱的东西。 在此先感谢! 编辑: 我想这样做在this答案描述如下: DEFAULT_LOGGING = { 'version': 1, 'di

    0热度

    1回答

    我试图用python scrapy创建一个解析器,它应该从网页中提取一些字段。我在这里面临的问题是,我无法以正确的方式将参数传递给蜘蛛类中的“target_page”方法。我知道我将“标题”和“值”字段从“parse”方法传递给“target_page”的方式并不是pythonic。但是,我做到了,因为我真的不知道如何以正确的方式在“target_page”方法中传递上述字段。我该怎么做?提前致谢

    -2热度

    3回答

    我有一个链接:https://www.glassdoor.ca/Job/canada-data-jobs-SRCH_IL.0,6_IN3_KE7,11_IP1.htm 我想增加这样的链接:https://www.glassdoor.ca/Job/canada-data-jobs-SRCH_IL.0,6_IN3_KE7,11_IP2.htm 然后3,4,5 .... 我的代码是: # -*- cod

    0热度

    1回答

    在向URL发送请求时遇到问题。 虽然在主要页面检查我得到的URL在HREF作为 但是,当链接变得开放,这似乎是: 两个链接是不同的,我怎么能弥补这方面的要求。 这里就是我说壳:

    0热度

    1回答

    我试图使用Selenium和Scrapy(请参阅下面的代码)来抓取英国着名零售商的网站。我得到一个[scrapy.core.scraper] ERROR: Spider error processing,不知道还有什么要做的(一直呆了三个小时左右)。感谢你的支持。 import scrapy from selenium import webdriver from nl_scrape.items