scrapy-spider

2热度

3回答

我想使用基于官方文档中提供的代码的Python脚本运行多个蜘蛛。我的scrapy项目包含多个蜘蛛（Spider1，Spider2,等）它抓取不同的网站并将每个网站的内容保存在不同的JSON文件中（output1.json，output2.json，等）。在不同网站上收集的项目共享相同的结构，因此蜘蛛使用相同的项目，管道和设置类。输出由管道中的自定义JSON类生成。当我分别运行蜘蛛时，它们按预期

0热度

1回答

Scrapy：ImportError：没有模块命名管道

我遇到问题让我的刮刀加载物品管道。在我的努力，试图加我的自定义管道我收到以下错误： ImportError: No module named pipelines 我已经试过了文档，但它并没有真正解释了如何设置ITEM_PIPELINE选择路径。这是从文档的例子： ITEM_PIPELINES = { 'myproject.pipelines.PricePipeline': 300,

0热度

1回答

Scrapy检测标记不关闭

被抓取的html页面有一个sql错误，我注意到html标记甚至没有关闭，但我的xpath选择器无法检测到标记内部没有关闭。我如何检测不与scrapy关闭的标签？感谢

0热度

1回答

Scrapy - 设置FILES_STORE的问题？

所以我有一个自定义管道，扩展了Scrapy的当前FilesPipeline。但是，我在设置FILES_STORE变量时遇到了问题。我现在的文件结构是： my_scraper.py files/ #this is where I want the files to download to 所以，我设置FILES_STORE=/files/和运行蜘蛛。但是当我这样做时，我得到以下错误：

0热度

2回答

Scrapy的分页错误

嗨，大家好，我发现了以下分页错误而搭售刮网站 2017-07-27 18:30:21 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.pedidosja.com.br/restaurantes/sao-paulo?a=rua%20tenente%20negr%C3%A3o%20200&cep=0453003

0热度

1回答

Scrapy CrawlSpider - 不能按照特定的链接或自定义的处理器

解析我一直在使用Scrapy并试图遵循例子只能跟着网址匹配某种正则表达式的那个。我不是一个Python开发，但我已经尝试了很多方法，试图让这是怎么回事。我在Scrapy文档中使用了示例URL，并且从CrawlSpider延伸并通过LinkExtractor实现了规则。目前，我想只使用一个自定义的解析器对任何URL的包含在他们所说的“朋友”。 ** Scrapy Python的蜘蛛** imp

0热度

2回答

刮使用Scrapy使用从列表

class PractiseSpider(scrapy.Spider): name = "practise" allowed_domains = ["practise.com"] start_urls = ['https://practise.com/product/{}/'] def parse(self, response): #do som

0热度

1回答

用Scrapy刮掉MSN新闻

我目前正在试图用scrapy刮取MSN新闻，并且在scrapy外壳内获取浏览器的正确响应时遇到了一些困难。当我去https://www.msn.com/en-us/news/world在浏览器中，我看到：这是完美的，因为这是该页面应该是什么样子，但是当我运行命令scrapy shell https://www.msn.com/en-us/news/world，然后view(response)这

0热度

2回答

Scrapy Linkextractor或规则不工作

我一直在试图让Scrapy的Linkextractor工作，但无济于事。我希望它找到任何链接，然后调用不同的方法，只是打印出来显示它的工作。这是我的蜘蛛： from scrapy.spiders import Rule, CrawlSpider from scrapy.linkextractors import LinkExtractor class TestSpider(CrawlS

1热度

1回答

Scrapy有一个蜘蛛使用另一个嵌入的属性

所以问题是我有一个蜘蛛爬过一个网站，刮了一堆产品信息...然后我想有另一个产品列表首先建立链接，并将其用于检查目的。我意识到我可以在一个蜘蛛中完成这一切，但蜘蛛已经非常大（是25个不同域的通用蜘蛛），并希望保持这个尽可能分离。目前我创建这个主蜘蛛的情况下，像如下： def run_spiders(*urls, ajax=False): process = CrawlerProcess(