quanteda

    0热度

    1回答

    我正在使用带有4Gb RAM的32位操作系统的Windows 7,其中只有3Gb可由于32位限制而被访问。我关闭了所有其他东西,可以看到在启动之前我有大约1Gb的缓存和1Gb可用空间。 “免费”的内存有所不同,但有时是0. 使用量子 - 我正在阅读twitter.txt文件使用textfile()命令,它成功地创建了一个157Mb的corpusSource对象。当我采用下一步使用corpus()命

    4热度

    1回答

    我非常需要。我已经有了一个我已经转换成通用语言的语料库,但是其中一些词语没有正确转换成英文。因此,我的语料库具有非ASCII字符,如“(U + 00F8)”。 我使用Quanteda,我已经使用这个代码导入我的文字: EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encod

    2热度

    2回答

    我正在尝试使用R的quanteda软件包创建3克。 我很努力地找到一种方法来保留句子标记的n-grams开头和结尾,如下面的代码所示,<s>和</s>。 我认为使用keptFeatures与正则表达式匹配的应该保持它们,但总是删除V形标记。 我该如何避免去除V形标记或者用quanteda来限定句子的开始和结束的最佳方式? 作为奖励的问题是什么docfreq(mydfm)优于colSums(mydf

    0热度

    2回答

    我想实现我的R中的语料库quanteda,但我正在逐渐: Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, : duplicate row.names: character(0) 我没有这个很多经验。这是该数据集的下载:https://www.dropbox.com/s/ho5tm8lyv0

    1热度

    1回答

    我想在我的单字节频率表中保留两个字母缩写词,它们之间用句点分隔,例如“t.v.”和“美国”。当我用quanteda构建我的单字节频率表时,终止时期正在被截断。这里是一个小的测试语料库来说明。我已删除了句号,句分隔符: SOS This is the u.s. where our politics is crazy EOS SOS In the US we watch a lot of t.v. a

    5热度

    1回答

    我正在使用自然语言处理进行短信挖掘。我用quanteda包生成文档特征矩阵(dfm)。现在我想用卡方检验进行特征选择。 我知道已经有很多人问这个问题了。但是,我找不到相关的代码。 (答案只是给了一个简短的概念,是这样的:https://stats.stackexchange.com/questions/93101/how-can-i-perform-a-chi-square-test-to-do-

    1热度

    1回答

    在使用R进行文本挖掘时,在重新处理文本数据之后,我们需要创建文档项矩阵以供进一步探索。但是与中国人相似,英语也有一些特定的阶段,比如“语义距离”,“机器学习”,如果将它们分成单词,它们有完全不同的含义,我想知道如何匹配预定义的词典值由空白分隔的项组成,例如包含“语义距离”,“机器学习”。如果一个文档是“我们可以使用机器学习方法来计算词语的语义距离”,那么当将这个文档应用于词典[“语义距离”,“机器

    1热度

    2回答

    我有一个大数据集(> 100万行),每行都是多句话文本。例如下面的2行示例: mydat <- data.frame(text=c('I like apple. Me too','One two. Thank you'),stringsAsFactors = F) 我试图做的每一行中提取两字条款(以下简称就能分开NGRAM术语“”)。如果我只是使用DFM功能: mydfm = dfm(myda

    1热度

    2回答

    在R中制定DFM之前是否可以将权重分配给不同的特征? 考虑中的R这个例子 str="apple is better than banana" mydfm=dfm(str, ignoredFeatures = stopwords("english"), verbose = FALSE) DFM mydfm样子: docs apple better banana text1 1 1 1 但是

    1热度

    1回答

    我想分析一个大的(n = 500,000)文档语料库。我使用quanteda期望will be faster比tm_map()从tm。我想要一步一步地执行,而不是使用dfm()的自动方式。我有这样的理由:在一种情况下,我不想在移除停用词之前进行标记化,因为这会导致许多无用的bigrams,在另一种情况下,我必须使用特定于语言的过程预处理文本。 谨以此顺序实施: 1)删除标点和数字 2),即标记化之