2015-02-07 43 views
0

我也一边做文本聚类在亨利马乌0.9与集群转储一个问题 -ClusterDump在亨利马乌0.9

https://mahout.apache.org/users/clustering/clusteringyourdata.html

一个簇转储的情况下,输出前k kerms和要不要t指定参数p(pointsDir)。

集群转储的第二种情况是您指定参数p(pointsDir)的位置,您可以获得与集群关联的点。

这两个输出都具有相同的确切群集标识,但情况1中显示的记录数量 - 显示的顶级条款与条件2中出现的记录数量不同 - 您获得与群集关联的点数。

为什么会发生这种情况?我的意思是它的bizzare看到与特定群集相关的不同点数,并不确定哪一个是正确的?

有没有人看到过这种情况?

预先感谢您!

回答

0

最后搜索了很多关于网络上这个问题后,我找到了一个链接讨论这个问题 -

http://qnalist.com/questions/4874723/mahout-clusterdump-output

虽然什么引起我注意的是下面这样的解释 -

我觉得由群集 报告的向量数(n =)与由-cl 选项实际聚集的点数之间的差异是正常的。 *在最后一次迭代中,根据距离度量和从先前迭代计算得到的聚类中心,将点分配给(通过) (分类为)每个聚类。 (n =)值 记录了该群集在该迭代中观察到的点的数量。 *在最后一次迭代之后,每个群集将为 计算一个新的群集中心。这会使中心移动一定的数量,小于收敛阈值,但会移动。 *在随后的分类(-cl)步骤中,将使用这些新中心 对输出点进行分类。这将不可避免地导致 导致某些点被分配到(被观察)(被归类为) 不同的簇,因此输出clusteredPoints将反映 这个最终分配。 在小的,人为设计的例子中,最终迭代与聚类点输出之间的聚类可能会更稳定 。 我认为群集报告的 数量(n =)个向量与实际由-cl选项聚集的点数之间的差异是正常的。 在最后一次迭代中,基于距离度量 和根据前一次迭代计算的聚类中心将点分配给(观察者) (分类为)每个聚类。 (n =)值记录在该迭代中由“ 群集观察”的点的数量。 最后一次迭代后,为每个群集计算一个新的群集中心为 。这会使中心移动一些 数量,小于收敛阈值,但会移动。 在随后的分类(-cl)步骤中,将使用这些新的 中心对输出点进行分类。 将不可避免地导致某些点被分配给(被观察) (归类为)不同的群集,因此输出 clusteredPoints将反映这个最终分配。 在小的,人为设计的例子中,聚类可能会在最终迭代和聚类点的输出之间更加稳定。

相关问题