2013-05-06 41 views
1

任何人都可以告诉我如何k均值聚类工作textmining .. 和我使用余弦相似度作为距离度量。如何解决这与kmeans聚类和使用余弦similiraty

nim    310910022  320910044   310910043   310910021 
access    0    2     3     5 
abdi     1    0     0     0 
actual    5    0     0     1 
arrow     0    1     1     2 

这个数据是在列表视图

我怎样才能做到这一点在VB.net?获得该术语的任何聚类和热门话题?

提前感谢

回答

0

首先,我将这个问题分成两个部分:

  1. 计算的K-均值聚类分配
  2. 从GUI获取数据(你所提到的数据是一个列表视图)

我假设2很简单,你只需要帮助1.

我会从重写代码开始,按照您指定的方式只读取数据的TSV文本文件。这将使事情更容易调试。

然后问你是否要自己实现kmeans算法或使用库。 如果你想实现它,这里是一个链接到伪代码 http://www.scribd.com/doc/89373376/K-Means-Pseudocode 你也可以搜索其他kmeans伪代码。

如果你想使用库来“运行”你的数据对kmeans算法,这里是一个python/scipy的例子。 http://glowingpython.blogspot.com/2012/04/k-means-clustering-with-scipy.html

无论您使用哪种方法,请认识到kmeans是非确定性的,并且每次运行它时可能会得到不同的答案。我会建议使用已知的验证集进行计算,以查看数据是否与您认为的大致相同。

+0

我可以在vb.net上使用这个库? – 2013-05-07 01:38:12

+1

您可以在vb.net中重新编写伪代码,但无法在vb.net中轻松运行python库。为什么不将应用程序分为两部分:vb.net中的GUI和R或Python中的计算集群部分? – 2013-05-07 17:35:21