quanteda

    0热度

    1回答

    我想分析一个大文本文件夹,用于存在多种语言的名称,地址和电话号码。 这些通常会以“地址”,“电话号码”,“名称”,“公司”,“医院”,“送达者”之前。我会有这些词的字典。 我在想,如果文本挖掘工具是完美的工作。 我想为所有这些文档创建一个语料库,然后在给定字典条目的右侧或下方找到符合特定(我正在考虑正则表达式条件)的文本。 在R中的数据挖掘软件包中是否有这样的语法, 以获取字词表条目右侧或下侧的字

    0热度

    1回答

    为了在处理非常大的语料库样本时节省内存空间,我期待仅取前10个1grams并将其与所有2至5grams结合以形成我的单一的quanteda :: dfmSparse对象将用于自然语言处理[nlp]预测。对所有1克进行操作将毫无意义,因为只有前十名[或二十名]才能使用我正在使用的简单后退模型。 我无法找到指示它只返回顶部##特征的quanteda :: dfm(corpusText,...)参数。所

    0热度

    1回答

    我正在尝试构建一个Shiny应用程序,该应用程序可以通过从文本框(即文本框)匹配语料库来动态显示数据库列中的句子。当用户开始在文本框中输入文本时,所有匹配的句子(文本类型中的语料)需要按照与语料库匹配的词数顺序显示 我尝试了kwic函数,但这并不帮助匹配语料库动态,做法,我试过了, require(quanteda) require(tm) data(crude, package = "tm"

    1热度

    1回答

    我使用quanteda建设两个文件特征矩阵: library(quanteda) DFM1 <- dfm("this is a rock") # features # docs this is a rock # text1 1 1 1 1 DFM2 <- dfm("this is music") # features # docs this is music # text1 1

    1热度

    1回答

    lemmes我想用外部的txt文件,结构为波兰引理如下: (来源引理对许多其他语言http://www.lexiconista.com/datasets/lemmatization/) Abadan Abadanem Abadan Abadanie Abadan Abadanowi Abadan Abadanu abadańczyk abadańczycy abadańczyk abad

    1热度

    1回答

    可以说一个叫做textstat_frequency{package:quanteda} 的函数为我们提供了以下数据帧。 data.frame(xx=1:4,yy=5:8,foo=c("A","A","B","C"),stringsAsFactors=FALSE) xx yy foo 1 1 5 A 2 2 6 A 3 3 7 B 4 4 8 C 什么是塑造根据矢量 c("B"

    0热度

    1回答

    我使用Ken Benoit和Paul Nulty的quanteda软件包处理文本数据。 我的语料库包含带有完整德语句子的文本,我只想处理每个文本的名词。德语中的一个窍门是仅使用大写字母,但这在句子的开头就会失败。 Text1 <- c("Halle an der Saale ist die grünste Stadt Deutschlands") Text2 <- c("In Hamburg r

    1热度

    2回答

    我正尝试将使用tm的脚本迁移到量子。阅读量子文档有一个关于应用“下游”变化的原理,以便原始语料库不变。好。 我以前写过一个脚本来查找我们的tm语料库中的拼写错误,并得到了我们团队的支持以创建手动查找。所以,我有一个包含2列的csv文件,第一列是拼写错误术语,第二列是该术语的正确版本。 利用TM包之前我这样做: # Write a custom function to pass to tm_map

    0热度

    1回答

    我有一个大的1M文档语料库工作,并已申请了几次改变从创建它的文档频率矩阵时: library(quanteda) corpus_dfm <- dfm(tokens(corpus1M), # where corpus1M is already a corpus via quanteda::corpus() remove = stopwords("english"),

    1热度

    4回答

    我想使用大型外部词典(类似于下面的txt变量的格式)来解读波兰文本。我不幸运,有一个选择波兰文与流行的文本挖掘软件包。 @DmitriySelivanov的答案https://stackoverflow.com/a/45790325/3480717与简单的文本向量一起工作良好。 (我也从字典和语料库中删除了波兰的变音符号。)该函数可以很好地处理文本向量。 不幸的是,它不适用于由tm生成的语料库格式