我如何计算两个文档之间的距离?在数字的k-means中,你必须计算两点之间的距离。我知道我可以使用余弦函数。 我想对rss文件执行群集。我已经完成了并删除了文档中的停用词。我已经在每个文档中统计了单词的频率。现在我想实现k均值算法。使用K-means算法进行文档聚类
-1
A
回答
1
我假设你的难度在创建特征向量?创建用于每个文件由
- 收集所有字一起形成一个巨大的矢量
- 设置该向量的元素是项的计数的特征向量。
举例来说,如果你有
Document 1 = the quick brown fox jumped over the brown dog
Document 2 = the brown cows eat hippo meat
那么总的组字是[的,快速的,棕色,狐狸,跳下,结束了,狗,牛,吃,河马,肉]和文献向量是
Document 1 = [1,1,2,1,1,1,1,1,0,0,0,0]
Document 2 = [1,0,1,0,0,0,0,0,1,1,1,1]
而现在你只要,你可以用它来表示文档两大巨头的特征向量,你可以使用K-means聚类。正如其他人所说,欧几里得距离可以用来计算文件之间的距离。
1
有各种距离函数。一种是Euclidean Distance。
0
您可以使用n维系统的欧几里得距离公式。
sqrt((x1-x2)^2 + (y1-y2)^2 + (z1 - z2)^2 ...)
相关问题
- 1. 使用mahout进行Kmeans聚类
- 2. 使用scipy kmeans进行聚类分析
- 3. KMEANS文本数据进行聚类
- 4. 聚类超过3个文档时Kmeans进行异常缓慢
- 5. 平分文档聚类的KMeans
- 6. 计算Kmeans聚类的误差
- 7. 在Python中对文档进行聚类
- 8. 聚类和kmeans有不清楚的文档
- 9. 聚类算法的功能缩放(规范化)(如Kmeans&EM)
- 10. 如何格式化Spark Spark kmeans聚类算法的数据?
- 11. Kmeans聚类和文本挖掘在R
- 12. 聚类基线比较,KMeans
- 13. KMeans中的数据聚类使用二叉树结构的算法
- 14. 文档聚类
- 15. 基于地理半径对推文进行聚类的算法
- 16. 这个变量应该用什么分类算法进行文档分类?
- 17. 用Mahout使用Clojure进行聚类(fkmeans)
- 18. 使用CoreNLP ColumnDataClassifier进行大型文档集的文档分类
- 19. Matlab的:二进制使用来自聚类算法
- 20. 使用kmeans算法构建数据模型并使用它对新数据集进行分类
- 21. 聚类标签和聚类中心(R中的kmeans)
- 22. Kmeans聚类识别R中的知识
- 23. kmeans聚类与数据框(scipy)
- 24. 将kmeans聚类结果导出到.csv
- 25. Kmeans聚类如何在tensorflow中工作?
- 26. opencv kmeans聚类的输入矩阵
- 27. R绘制kmeans与热图聚类
- 28. 如何将KMEANS算法应用于从PSO算法中指定的确定的聚类位置?
- 29. 使用MySQL进行“聚类分析”
- 30. 使用LAMP进行聚类分析
你如何通过k-means运行这些文档向量?你是否必须迭代计算每个文档和每个其他文档之间的距离? – 2013-03-07 22:50:57