2014-05-14 36 views
0

我正在大型数据集上进行文本挖掘。我能够创建TDM和DTM,并能够使用TDF & IDF执行我的分析。但是,我们可以在R中创建一个术语文档矩阵或文档术语矩阵,用于Bi Grams?我知道类似的设施在Mahout中可用,但我正在寻找一种在R中执行此操作的方法?创建毕克文件矩阵?

回答

1

下面的代码为我工作:

BigramTokenizer <- function(x) {RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 2, max = 2))} 
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = BigramTokenizer))