2017-03-03 61 views
0

我使用R中的tm包创建文本文档的语料库,我想创建一个用于分类的rpart决策树。然而,我在互联网上找不到任何关于rpart使用文本数据的例子。它甚至有可能或者我可以使用其他软件包吗?在R中使用tm和rpart:文本数据的决策树?

+1

你在哪里看?应该有[几个例子](https://www.google.com/search?q=“DocumentTermMatrix”+“rpart”) – lukeA

回答

1

这里有一个首发:

library(tm) 
library(rpart) 
docs <- c(txt1="Hello world", txt2="lorem ipsum") 
dtm <- DocumentTermMatrix(Corpus(VectorSource(docs)), control = list(weight = weightBin)) 
m <- as.matrix(dtm) 
train <- as.data.frame(m) 
train$Docs <- factor(rownames(m), labels=names(docs)) 
fit <- rpart(Docs~.,data=train, control = rpart.control(minsplit=1)) 
test <- data.frame(hello=c(1,0),world=c(0,0),ipsum=c(0,1),lorem=c(0,0), row.names=letters[1:2]) 
predict(fit, newdata=test, type="class") 
# a b 
# txt1 txt2 
# Levels: txt1 txt2 
+0

你需要在'train $ Docs < - factor(rownames(m) ,标签=名称(文档))'(特别是标签部分),如果你有一个大的语料库和一个单独的'类'变量,说明文档属于哪个类(例如类a,b,c)。我尝试过'labels = class',但它说'重复的因素水平已被弃用' – vdvaxel

+0

独特的类没有重复。 – lukeA