scrapy-spider

2热度

1回答

我有一个用Scrapy编写的项目。这个蜘蛛在setup.py中有很多要求。这是一个简单的示例。我跑 scrapyd-deploy ，并具有以下输出 Packing version 1506254163 Deploying to project "quotesbot" in http://localhost:6800/addversion.json Server response (200)

1热度

1回答

Scrapy：刮网页上的“下一个”结果使用scrapy

# -*- coding: utf-8 -*- import scrapy from scrapy.http import Request class InfoSpider(scrapy.Spider): name = 'info' allowed_domains = ['womenonlyconnected.com'] start_urls =['http

0热度

2回答

Scrapy返回多个项目

我是新来的Scrapy，我真的只是失去了如何在一个块中返回多个项目。基本上，我得到一个HTML标记，其中有一个引号，其中包含文本，作者姓名和有关该引用的一些标记的嵌套标记。这里的代码只返回一个报价，就是这样。它不使用循环来返回其余的。我一直在网上搜索几个小时，我只是绝望，我不明白。这里是我到目前为止的代码： Spider.py import scrapy from scrapy.loader

0热度

1回答

将附加参数传递给scrapy.Request（）

其实我想将与特定网站相关的所有数据（文本，hrefs，图像）存储到一个文件夹中。为了做到这一点，我需要传递该文件夹的路径所有不同的解析function.So我想通过在scrapy.Request()这样这条道路作为额外kwargs： yield scrapy.Request(url=url,dont_filter=True, callback=self.parse,errback = self.e

0热度

1回答

Scrapy Spider一次又一次地返回相同的元素

我已经遇到了一个我放在一起的蜘蛛问题。我试图从this site上的脚本中找到单行，并找到了一些合适的选择器，但是在运行时，蜘蛛的输出只是一遍又一遍的重复。我见过其他类似问题的其他人（like this），但还没有找到解决我的问题的答案。（作为一个说明，我认为这可能是我的基地Python的编码和for环路建设的问题，而不是一个问题与scrapy本身）。这里是蜘蛛： # -*- coding:

0热度

1回答

刮递归使用Scrapy

以下链接访问我使用刮域的所有URL代码： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors.lxmlhtml import LxmlLinkExtractor class UrlsSpider(scrapy.Spider): name = 'urlsspide

1热度

1回答

在Ubuntu 14.04安装scrapy失败，并在密码设置命令无效环境标志错误

我试图在另一台服务器上安装scrapy当我运行PIP安装scrapy error in cryptography setup command: Invalid environment marker: python_version < '3' Complete output from command python setup.py egg_info: error in cryptography

0热度

1回答

使用同一个蜘蛛来解析详细信息页面和分页页面

我有一个使用链接提取器来移动分页和解析详细信息页面的一个刮板，一切工作正常。示例代码如下： class SampleSpider(CrawlSpider): name = 'sample' start_urls = ['https://www.some-pagination-page.com'] rules = ( Rule(LinkExtractor(r

-2热度

2回答

如何使用css或xpath选择器获取按钮的onclick文本

我不知道如何通过使用css/xpath选择器获得按钮的onclick文本。下面是代码： <button type="button" class="btn btn-primary pull-right btn-sm no-redirect ph" onclick="showNumber('11111111122/002-26688<br>18000000000', 'DIM')> <spa

0热度

1回答

Scrapy履带行为不正常

我已经在python scrapy中编写脚本来解析craigslist中的不同类别。我注意到一些奇怪的事情正在执行脚本。它完美运行，毫无怨言。但是，问题是：如果我像下面那样保留items.py空白，它在抓取过程中没有任何影响。我的问题是，它在我的scrapy项目中做了什么呢？提前致谢。 “Items.py” 文件包含： import scrapy class CraigItem(scrapy.