snowball

0热度

1回答

下面是我如何干掉我的语料库和我的文档。然而，例如“工作”和“工作”显示了大量的时间，而且在我的分析中，这些对于所有意图和目的来说显然是相同的。有没有一个包或一些代码片段去除“-ed”结尾？谢谢！ library(tm) docs<-Corpus(DirSource(cname)) summary(docs) library(SnowballC) docs <- tm_map(docs,

0热度

1回答

德语中的Python情感分析NLTK

我最近开始研究德语文本中的情感分析项目，并计划使用词法分析器来改进结果。 NLTK附带德国雪球干燥器，我已经试过使用它，但我不确定结果。也许它应该是这样，但作为一个计算机科学家而不是语言学家，我有一个问题与屈曲动词形式源于不同的词干。取“suchen”（搜索）这个词，它被认为是第一人称单数的“such”，而第三人称单数是“sucht”。我知道也有词形化，但据我所知，没有工作的德语lemmati

2热度

1回答

tm包中的stemDocment不适用于过去时词

我有一个'check_text.txt'文件，其中包含“说说make制造”。我想对它进行干扰以获得“说出口说make make”。我试过在tm包中使用stemDocument，如下所示，但是只能得到“说出来说说make make”。有没有一种方法可以对过去式单词进行词干化处理？在真实世界的自然语言处理中是否有必要这样做？谢谢！ filename = 'check_text.txt' con

0热度

2回答

Elasticsearch如何配置语言分析器（德语）或构建自定义标准化程序

我正在使用德语语言分析程序标记某些内容。我知道它基本上是一个“小写”，“german_stop”，“german_keywords”，“german_normalization”，“german_stemmer”的宏过滤器。我的问题与规范化过滤器有关。这里是过滤器的Elasticsearch Documentation和Lucene Implementation。问题是ae ue和oe被视为德文

1热度

1回答

SnowballStemmer for Russian单词列表

我知道如何在单个单词上执行SnowballStemmer（在我的情况下，在俄语单词上）。在做下一件事： from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.stem("Василий") 'Васил' 我怎么可以做以下，如果我有一个像[“Василий”

2热度

1回答

雪球梗：定义空区域

我想了解雪球干扰算法。 HW90有类似的问题与例子，但不是我的。使用两个区域R1和R2的algorithmus被definied如下： R1是以下一个元音的第一个非元音之后的区域中，或者是在字的末尾的空区域，如果有没有这样的非元音。 R2是在R1之后的第一个非元音之后的区域，或者是如果没有这样的非元音这个词末尾的空区域。 http://snowball.tartarus.org/texts/

3热度

3回答

KeyError：“Stemming algorithm not found”使用Snowballstemmer for Arabic

我安装了这个词干的阿拉伯语Here。我用这个代码运行它： from snowballstemmer import stemmer ar_stemmer = stemmer("arabic") ar_stemmer.stemWord(u"فسميتموها") 当我运行它，我得到这个： Traceback (most recent call last): File "C:\Users\CL

0热度

1回答

R中的Stemmer函数慢

我试图在R约40000行的数据集上运行stemmer函数（通过data.table包上传），但它需要永久运行。我的代码如下所示： data[, Description := map(Description, function(k) stemmer(k))] 如果手动停止的过程中，它显示超过50级的警告为： Image Link 是否有更快的运行它的替代品。我的电脑有8Gb内存。

2热度

1回答

使用雪球定义字符串列表

如何使用雪球定义列表字符串？我试图做这样的： define patterns ( '{m}{f}{i}{l}' or '{f}{a}{i}{l}' or ....... ) 如何获取列表的长度？如何处理每一种模式？

1热度

1回答

为什么我错过了有效文档矩阵中的最后一个字母？

我是R的新手，我试图用csv文件创建术语文档矩阵。但结果表明，一些单词最后缺少字母“e”。我怎样才能让术语文档矩阵显示完整的单词？如果您在看到一个看起来不正确的部分时也可以告诉我，那将会很棒。谢谢！ library(tm) posts<-read.csv("/abcd.csv",header=TRUE) require(tm) posts<-Corpus(VectorSource(posts