0
我正在使用10842个推文数对一组文本数据运行k均值聚类。我设置了k设定5,我得到了我的集群按以下k-means聚类 - 为什么所有相同的聚类?
cluster1中:预定航班NA
Cluster2中:机票预订NA
cluster3:机票预订NA
cluster4:机票预订NA
cluster5:预订航班NA
我不易懂nd为什么所有的集群都是相同的?
myCorpus<-Corpus(VectorSource(myCorpus$text))
myCorpusCopy<-myCorpus
myCorpus<-tm_map(myCorpus,stemDocument)
myCorpus<-tm_map(myCorpus,stemCompletion,dictionary=myCorpusCopy)
myTdm<-TermDocumentMatrix(myCorpus,control=list(wordLengths=c(1,Inf)))
myTdm2<-removeSparseTerms(myTdm,sparse=0.95)
m2<-as.matrix(myTdm2)
m3<-t(m2)
set.seed(122)
k<-5
kmeansResult<-kmeans(m3,k)
round(kmeansResult$centers,digits=3)
for(i in 1:k){
cat(paste("cluster",i,":",sep=""))
s<-sort(kmeansResult$centers[i,],decreasing=T)
cat(names(s)[1:3],"\n")
}
嗨,我现在可以通过“向下调整”稀疏“选项”来达到什么目的?我注意到我删除了SparseTerms并调换了矩阵后,我的数据集只包含2列“预订”和“航班”。不知道为什么? – user3456230