scrapy-spider

    2热度

    3回答

    我想使用基于官方文档中提供的代码的Python脚本运行多个蜘蛛。我的scrapy项目包含多个蜘蛛(Spider1,Spider2,等)它抓取不同的网站并将每个网站的内容保存在不同的JSON文件中(output1.json,output2.json,等)。 在不同网站上收集的项目共享相同的结构,因此蜘蛛使用相同的项目,管道和设置类。输出由管道中的自定义JSON类生成。 当我分别运行蜘蛛时,它们按预期

    0热度

    1回答

    我遇到问题让我的刮刀加载物品管道。在我的努力,试图加我的自定义管道我收到以下错误: ImportError: No module named pipelines 我已经试过了文档,但它并没有真正解释了如何设置ITEM_PIPELINE选择路径。这是从文档的例子: ITEM_PIPELINES = { 'myproject.pipelines.PricePipeline': 300,

    0热度

    1回答

    被抓取的html页面有一个sql错误,我注意到html标记甚至没有关闭,但我的xpath选择器无法检测到标记内部没有关闭。 我如何检测不与scrapy关闭的标签? 感谢

    0热度

    1回答

    所以我有一个自定义管道,扩展了Scrapy的当前FilesPipeline。但是,我在设置FILES_STORE变量时遇到了问题。我现在的文件结构是: my_scraper.py files/ #this is where I want the files to download to 所以,我设置FILES_STORE=/files/和运行蜘蛛。但是当我这样做时,我得到以下错误:

    0热度

    2回答

    嗨,大家好,我发现了以下分页错误而搭售刮网站 2017-07-27 18:30:21 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.pedidosja.com.br/restaurantes/sao-paulo?a=rua%20tenente%20negr%C3%A3o%20200&cep=0453003

    0热度

    1回答

    解析我一直在使用Scrapy并试图遵循例子只能跟着网址匹配某种正则表达式的那个。 我不是一个Python开发,但我已经尝试了很多方法,试图让这是怎么回事。 我在Scrapy文档中使用了示例URL,并且从CrawlSpider延伸并通过LinkExtractor实现了规则。 目前,我想只使用一个自定义的解析器对任何URL的包含在他们所说的“朋友”。 ** Scrapy Python的蜘蛛** imp

    0热度

    2回答

    class PractiseSpider(scrapy.Spider): name = "practise" allowed_domains = ["practise.com"] start_urls = ['https://practise.com/product/{}/'] def parse(self, response): #do som

    0热度

    1回答

    我目前正在试图用scrapy刮取MSN新闻,并且在scrapy外壳内获取浏览器的正确响应时遇到了一些困难。 当我去https://www.msn.com/en-us/news/world在浏览器中,我看到: 这是完美的,因为这是该页面应该是什么样子,但是当我运行命令scrapy shell https://www.msn.com/en-us/news/world,然后view(response)这

    0热度

    2回答

    我一直在试图让Scrapy的Linkextractor工作,但无济于事。 我希望它找到任何链接,然后调用不同的方法,只是打印出来显示它的工作。 这是我的蜘蛛: from scrapy.spiders import Rule, CrawlSpider from scrapy.linkextractors import LinkExtractor class TestSpider(CrawlS

    1热度

    1回答

    所以问题是我有一个蜘蛛爬过一个网站,刮了一堆产品信息...然后我想有另一个产品列表首先建立链接,并将其用于检查目的。 我意识到我可以在一个蜘蛛中完成这一切,但蜘蛛已经非常大(是25个不同域的通用蜘蛛),并希望保持这个尽可能分离。目前我创建这个主蜘蛛的情况下,像如下: def run_spiders(*urls, ajax=False): process = CrawlerProcess(