quanteda

0热度

1回答

TM，Quanteda，text2vec。根据正则表达式模式获取词表左边的字符串

我想分析一个大文本文件夹，用于存在多种语言的名称，地址和电话号码。这些通常会以“地址”，“电话号码”，“名称”，“公司”，“医院”，“送达者”之前。我会有这些词的字典。我在想，如果文本挖掘工具是完美的工作。我想为所有这些文档创建一个语料库，然后在给定字典条目的右侧或下方找到符合特定（我正在考虑正则表达式条件）的文本。在R中的数据挖掘软件包中是否有这样的语法，以获取字词表条目右侧或下侧的字

0热度

1回答

加入quanteda dfm前十个1克与所有dfm 2至5克

为了在处理非常大的语料库样本时节省内存空间，我期待仅取前10个1grams并将其与所有2至5grams结合以形成我的单一的quanteda :: dfmSparse对象将用于自然语言处理[nlp]预测。对所有1克进行操作将毫无意义，因为只有前十名[或二十名]才能使用我正在使用的简单后退模型。我无法找到指示它只返回顶部##特征的quanteda :: dfm（corpusText，...）参数。所

0热度

1回答

通过在Shiny应用程序文本框中键入的文本显示匹配的句子

我正在尝试构建一个Shiny应用程序，该应用程序可以通过从文本框（即文本框）匹配语料库来动态显示数据库列中的句子。当用户开始在文本框中输入文本时，所有匹配的句子（文本类型中的语料）需要按照与语料库匹配的词数顺序显示我尝试了kwic函数，但这并不帮助匹配语料库动态，做法，我试过了， require(quanteda) require(tm) data(crude, package = "tm"

1热度

1回答

Quanteda：文档功能矩阵与预定义的功能集

我使用quanteda建设两个文件特征矩阵： library(quanteda) DFM1 <- dfm("this is a rock") # features # docs this is a rock # text1 1 1 1 1 DFM2 <- dfm("this is music") # features # docs this is music # text1 1

1热度

1回答

词形还原使用txt文件与R中

lemmes我想用外部的txt文件，结构为波兰引理如下：（来源引理对许多其他语言http://www.lexiconista.com/datasets/lemmatization/） Abadan Abadanem Abadan Abadanie Abadan Abadanowi Abadan Abadanu abadańczyk abadańczycy abadańczyk abad

1热度

1回答

通过向量重塑数据帧

可以说一个叫做textstat_frequency{package:quanteda} 的函数为我们提供了以下数据帧。 data.frame(xx=1:4,yy=5:8,foo=c("A","A","B","C"),stringsAsFactors=FALSE) xx yy foo 1 1 5 A 2 2 6 A 3 3 7 B 4 4 8 C 什么是塑造根据矢量 c("B"

0热度

1回答

使用Quanteda Corpuses识别名词

我使用Ken Benoit和Paul Nulty的quanteda软件包处理文本数据。我的语料库包含带有完整德语句子的文本，我只想处理每个文本的名词。德语中的一个窍门是仅使用大写字母，但这在句子的开头就会失败。 Text1 <- c("Halle an der Saale ist die grünste Stadt Deutschlands") Text2 <- c("In Hamburg r

1热度

2回答

如何将自定义函数应用于量子文集

我正尝试将使用tm的脚本迁移到量子。阅读量子文档有一个关于应用“下游”变化的原理，以便原始语料库不变。好。我以前写过一个脚本来查找我们的tm语料库中的拼写错误，并得到了我们团队的支持以创建手动查找。所以，我有一个包含2列的csv文件，第一列是拼写错误术语，第二列是该术语的正确版本。利用TM包之前我这样做： # Write a custom function to pass to tm_map

0热度

1回答

为什么功能名称（myDFM）包含超过一个或两个令牌的功能？

我有一个大的1M文档语料库工作，并已申请了几次改变从创建它的文档频率矩阵时： library(quanteda) corpus_dfm <- dfm(tokens(corpus1M), # where corpus1M is already a corpus via quanteda::corpus() remove = stopwords("english"),

1热度

4回答

使用哈希字典的词典化函数不适用于R中的tm包

我想使用大型外部词典（类似于下面的txt变量的格式）来解读波兰文本。我不幸运，有一个选择波兰文与流行的文本挖掘软件包。 @DmitriySelivanov的答案https://stackoverflow.com/a/45790325/3480717与简单的文本向量一起工作良好。（我也从字典和语料库中删除了波兰的变音符号。）该函数可以很好地处理文本向量。不幸的是，它不适用于由tm生成的语料库格式