2011-05-31 28 views
-1

我如何计算两个文档之间的距离?在数字的k-means中,你必须计算两点之间的距离。我知道我可以使用余弦函数。 我想对rss文件执行群集。我已经完成了并删除了文档中的停用词。我已经在每个文档中统计了单词的频率。现在我想实现k均值算法。使用K-means算法进行文档聚类

回答

1

我假设你的难度在创建特征向量?创建用于每个文件由

  1. 收集所有字一起形成一个巨大的矢量
  2. 设置该向量的元素是项的计数的特征向量。

举例来说,如果你有

Document 1 = the quick brown fox jumped over the brown dog 
Document 2 = the brown cows eat hippo meat 

那么总的组字是[的,快速的,棕色,狐狸,跳下,结束了,狗,牛,吃,河马,肉]和文献向量是

Document 1 = [1,1,2,1,1,1,1,1,0,0,0,0] 
Document 2 = [1,0,1,0,0,0,0,0,1,1,1,1] 

而现在你只要,你可以用它来表示文档两大巨头的特征向量,你可以使用K-means聚类。正如其他人所说,欧几里得距离可以用来计算文件之间的距离。

+0

你如何通过k-means运行这些文档向量?你是否必须迭代计算每个文档和每个其他文档之间的距离? – 2013-03-07 22:50:57

0

您可以使用n维系统的欧几里得距离公式。

sqrt((x1-x2)^2 + (y1-y2)^2 + (z1 - z2)^2 ...)