spacy

    1热度

    1回答

    由于我被告知Spacy是一个用于自然语音处理的如此强大的Python模块,我现在正在拼命寻找一种将单词分组到一起以超过名词短语,最重要的是介词短语。 我怀疑这是一个Spacy函数,但这将是我猜测的最简单的方法(SpacySpaCy导入已经在我的项目中实现)。尽管如此,我对任何可能的短语识别/组块都是开放的。

    2热度

    2回答

    我使用python spacy和它的工作正常标记每个单词,但我想知道是否有可能找到一个字符串中最常见的单词。还有可能获得最常见的名词,动词,副词等吗? 有一个count_by函数,但我似乎无法让它以任何有意义的方式运行。

    0热度

    1回答

    我使用spaCy与Python进行命名实体识别,但脚本需要在每次运行时加载模型,并且需要大约1.6GB的内存来加载它。 但1.6GB并非每次运行都可有可无。 如何将它加载到缓存或临时内存中以便使脚本运行更快?

    1热度

    1回答

    我试图将spacy.io文档序列化为字节字符串并将它们保存在numpy数组中。 spacy有一个to_bytes功能,它产生一个bytearray。我在此bytearray上调用str,并将该字符串对象插入到numpy数组中。这适用于大多数文档,除了那些以尾随零字节结尾的文档。 要重现: >>> import numpy as np >>> b_arr = bytearray(b'\xca\x0

    1热度

    1回答

    如何向SpaCy添加新的导入词。例如,新的单数复数名词。 例: Kirana =奇异 Kiranas =复数 我想将它添加到SpaCy这样,当一个句子中包含“Kiranas”,Kirana将显示为它的引理。

    4热度

    1回答

    所以我想在使用similarity()方法时使用spaCy中的一些this training data。 我也想在这个页面上使用预先训练过的向量。 但spaCy文档似乎缺乏这里,有谁知道如何做到这一点?

    0热度

    1回答

    考虑下面的代码,第二行需要大约一分钟的时间才能完成,并且对于每个程序,我都有下面的行,所以我怎么宁可服务nlp对象而不是每个加载它来自各种计划的时间? import spacy nlp = spacy.load('en') 理想情况下是这样的: nlp=loadservedobject(url) 的NLP对象是大约> 2GB因此不找系列化的解决方案。 我宁愿在内存nlp对象中服务,但不知

    0热度

    1回答

    的区别我有2个文件,AB(或2一系列文件),并希望得到 显示两个文档之间差异的新文档:通过差异AB ,有几个定义,一个是:单词的 列表/“概念”包括A,但不是B. 我想使用TF IDF为A和B的每一句话, 如: from sklearn.feature_extraction.text import TfidfVectorizer d1 = [open(f1) for f1 in text_fil

    2热度

    1回答

    我想在安装程序后在我的mac上安装spaCy英文模型。现在我的机器有python 2.7。我已经在venv中安装了spaCy,然后使用“python -m spacy.en.download”按照网站上的指示安装模型。当我尝试这样做,我得到的回应如下: $ python -m spacy.en.download 回溯(最近最后一次通话): File "/System/Libra

    4热度

    3回答

    我一直在使用spaCy Python包来解析和标记文本,并使用生成的依赖关系树和其他属性来派生含义。现在我想使用SyntaxNet的Parsey McParseface进行解析和依赖标记(这看起来更好),但是我想继续使用spaCy API,因为它很容易使用,并且它执行许多Parsey没有的功能。 SyntaxNet输出POS标签和依赖标签/树在一个CoNLL-格式: 鲍勃_ NOUN NNP _