quanteda

0热度

1回答

我正在使用带有4Gb RAM的32位操作系统的Windows 7，其中只有3Gb可由于32位限制而被访问。我关闭了所有其他东西，可以看到在启动之前我有大约1Gb的缓存和1Gb可用空间。 “免费”的内存有所不同，但有时是0. 使用量子 - 我正在阅读twitter.txt文件使用textfile（）命令，它成功地创建了一个157Mb的corpusSource对象。当我采用下一步使用corpus（）命

4热度

1回答

在R中使用Quanteda时，从文本语料库中删除非ASCII字符的最佳方法是什么？

我非常需要。我已经有了一个我已经转换成通用语言的语料库，但是其中一些词语没有正确转换成英文。因此，我的语料库具有非ASCII字符，如“（U + 00F8）”。我使用Quanteda，我已经使用这个代码导入我的文字： EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encod

2热度

2回答

如何保持句子标记的开始和结束与量化

我正在尝试使用R的quanteda软件包创建3克。我很努力地找到一种方法来保留句子标记的n-grams开头和结尾，如下面的代码所示，<s>和</s>。我认为使用keptFeatures与正则表达式匹配的应该保持它们，但总是删除V形标记。我该如何避免去除V形标记或者用quanteda来限定句子的开始和结束的最佳方式？作为奖励的问题是什么docfreq(mydfm)优于colSums(mydf

0热度

2回答

实施的n-gram在我的文集，Quanteda错误

我想实现我的R中的语料库quanteda，但我正在逐渐： Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, : duplicate row.names: character(0) 我没有这个很多经验。这是该数据集的下载：https://www.dropbox.com/s/ho5tm8lyv0

1热度

1回答

如何保持unigrams中的单词间句点？ R quanteda

我想在我的单字节频率表中保留两个字母缩写词，它们之间用句点分隔，例如“t.v.”和“美国”。当我用quanteda构建我的单字节频率表时，终止时期正在被截断。这里是一个小的测试语料库来说明。我已删除了句号，句分隔符： SOS This is the u.s. where our politics is crazy EOS SOS In the US we watch a lot of t.v. a

5热度

1回答

通过使用卡方检验在文档特征矩阵中的特征选择

我正在使用自然语言处理进行短信挖掘。我用quanteda包生成文档特征矩阵（dfm）。现在我想用卡方检验进行特征选择。我知道已经有很多人问这个问题了。但是，我找不到相关的代码。（答案只是给了一个简短的概念，是这样的：https://stats.stackexchange.com/questions/93101/how-can-i-perform-a-chi-square-test-to-do-

1热度

1回答

R构造文档术语矩阵如何匹配其值由空格分隔的短语组成的词典

在使用R进行文本挖掘时，在重新处理文本数据之后，我们需要创建文档项矩阵以供进一步探索。但是与中国人相似，英语也有一些特定的阶段，比如“语义距离”，“机器学习”，如果将它们分成单词，它们有完全不同的含义，我想知道如何匹配预定义的词典值由空白分隔的项组成，例如包含“语义距离”，“机器学习”。如果一个文档是“我们可以使用机器学习方法来计算词语的语义距离”，那么当将这个文档应用于词典[“语义距离”，“机器

1热度

2回答

R：在一个文档中有多个句子时使用dfm查找ngram

我有一个大数据集（> 100万行），每行都是多句话文本。例如下面的2行示例： mydat <- data.frame(text=c('I like apple. Me too','One two. Thank you'),stringsAsFactors = F) 我试图做的每一行中提取两字条款（以下简称就能分开NGRAM术语“”）。如果我只是使用DFM功能： mydfm = dfm(myda

1热度

2回答

为R中的不同特征分配权重

在R中制定DFM之前是否可以将权重分配给不同的特征？考虑中的R这个例子 str="apple is better than banana" mydfm=dfm(str, ignoredFeatures = stopwords("english"), verbose = FALSE) DFM mydfm样子： docs apple better banana text1 1 1 1 但是

1热度

1回答

创建dfm一步一步与quanteda

我想分析一个大的（n = 500,000）文档语料库。我使用quanteda期望will be faster比tm_map()从tm。我想要一步一步地执行，而不是使用dfm()的自动方式。我有这样的理由：在一种情况下，我不想在移除停用词之前进行标记化，因为这会导致许多无用的bigrams，在另一种情况下，我必须使用特定于语言的过程预处理文本。谨以此顺序实施： 1）删除标点和数字 2），即标记化之