snowball

    0热度

    1回答

    下面是我如何干掉我的语料库和我的文档。然而,例如“工作”和“工作”显示了大量的时间,而且在我的分析中,这些对于所有意图和目的来说显然是相同的。有没有一个包或一些代码片段去除“-ed”结尾?谢谢! library(tm) docs<-Corpus(DirSource(cname)) summary(docs) library(SnowballC) docs <- tm_map(docs,

    0热度

    1回答

    我最近开始研究德语文本中的情感分析项目,并计划使用词法分析器来改进结果。 NLTK附带德国雪球干燥器,我已经试过使用它,但我不确定结果。也许它应该是这样,但作为一个计算机科学家而不是语言学家,我有一个问题与屈曲动词形式源于不同的词干。 取“suchen”(搜索)这个词,它被认为是第一人称单数的“such”,而第三人称单数是“sucht”。 我知道也有词形化,但据我所知,没有工作的德语lemmati

    2热度

    1回答

    我有一个'check_text.txt'文件,其中包含“说说make制造”。我想对它进行干扰以获得​​“说出口说make make”。我试过在tm包中使用stemDocument,如下所示,但是只能得到“说出来说说make make”。有没有一种方法可以对过去式单词进行词干化处理?在真实世界的自然语言处理中是否有必要这样做?谢谢! filename = 'check_text.txt' con

    0热度

    2回答

    我正在使用德语语言分析程序标记某些内容。我知道它基本上是一个“小写”,“german_stop”,“german_keywords”,“german_normalization”,“german_stemmer”的宏过滤器。 我的问题与规范化过滤器有关。这里是过滤器的Elasticsearch Documentation和Lucene Implementation。问题是ae ue和oe被视为德文

    1热度

    1回答

    我知道如何在单个单词上执行SnowballStemmer(在我的情况下,在俄语单词上)。在做下一件事: from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.stem("Василий") 'Васил' 我怎么可以做以下,如果我有一个像[“Василий”

    2热度

    1回答

    我想了解雪球干扰算法。 HW90有类似的问题与例子,但不是我的。使用两个区域R1和R2的algorithmus被definied如下: R1是以下一个元音的第一个非元音之后的区域中,或者是 在字的末尾的空区域,如果有没有这样的非元音。 R2是在R1之后的第一个非元音之后的区域,或者 是如果没有这样的非元音 这个词末尾的空区域。 http://snowball.tartarus.org/texts/

    3热度

    3回答

    我安装了这个词干的阿拉伯语Here。我用这个代码运行它: from snowballstemmer import stemmer ar_stemmer = stemmer("arabic") ar_stemmer.stemWord(u"فسميتموها") 当我运行它,我得到这个: Traceback (most recent call last): File "C:\Users\CL

    0热度

    1回答

    我试图在R约40000行的数据集上运行stemmer函数(通过data.table包上传),但它需要永久运行。我的代码如下所示: data[, Description := map(Description, function(k) stemmer(k))] 如果手动停止的过程中,它显示超过50级的警告为: Image Link 是否有更快的运行它的替代品。我的电脑有8Gb内存。

    2热度

    1回答

    如何使用雪球定义列表字符串? 我试图做这样的: define patterns ( '{m}{f}{i}{l}' or '{f}{a}{i}{l}' or ....... ) 如何获取列表的长度?如何处理每一种模式?

    1热度

    1回答

    我是R的新手,我试图用csv文件创建术语文档矩阵。但结果表明,一些单词最后缺少字母“e”。我怎样才能让术语文档矩阵显示完整的单词?如果您在看到一个看起来不正确的部分时也可以告诉我,那将会很棒。谢谢! library(tm) posts<-read.csv("/abcd.csv",header=TRUE) require(tm) posts<-Corpus(VectorSource(posts