ClusterDump在亨利马乌0.9

我也一边做文本聚类在亨利马乌0.9与集群转储一个问题 -ClusterDump在亨利马乌0.9

https://mahout.apache.org/users/clustering/clusteringyourdata.html

一个簇转储的情况下，输出前k kerms和要不要t指定参数p（pointsDir）。

集群转储的第二种情况是您指定参数p（pointsDir）的位置，您可以获得与集群关联的点。

这两个输出都具有相同的确切群集标识，但情况1中显示的记录数量 - 显示的顶级条款与条件2中出现的记录数量不同 - 您获得与群集关联的点数。

为什么会发生这种情况？我的意思是它的bizzare看到与特定群集相关的不同点数，并不确定哪一个是正确的？

有没有人看到过这种情况？

预先感谢您！

来源

2015-02-07 VP10

最后搜索了很多关于网络上这个问题后，我找到了一个链接讨论这个问题 -

http://qnalist.com/questions/4874723/mahout-clusterdump-output

虽然什么引起我注意的是下面这样的解释 -

我觉得由群集报告的向量数（n =）与由-cl 选项实际聚集的点数之间的差异是正常的。 *在最后一次迭代中，根据距离度量和从先前迭代计算得到的聚类中心，将点分配给（通过）（分类为）每个聚类。（n =）值记录了该群集在该迭代中观察到的点的数量。 *在最后一次迭代之后，每个群集将为计算一个新的群集中心。这会使中心移动一定的数量，小于收敛阈值，但会移动。 *在随后的分类（-cl）步骤中，将使用这些新中心对输出点进行分类。这将不可避免地导致导致某些点被分配到（被观察）（被归类为）不同的簇，因此输出clusteredPoints将反映这个最终分配。在小的，人为设计的例子中，最终迭代与聚类点输出之间的聚类可能会更稳定。我认为群集报告的数量（n =）个向量与实际由-cl选项聚集的点数之间的差异是正常的。在最后一次迭代中，基于距离度量和根据前一次迭代计算的聚类中心将点分配给（观察者）（分类为）每个聚类。（n =）值记录在该迭代中由“ 群集观察”的点的数量。最后一次迭代后，为每个群集计算一个新的群集中心为。这会使中心移动一些数量，小于收敛阈值，但会移动。在随后的分类（-cl）步骤中，将使用这些新的中心对输出点进行分类。将不可避免地导致某些点被分配给（被观察）（归类为）不同的群集，因此输出 clusteredPoints将反映这个最终分配。在小的，人为设计的例子中，聚类可能会在最终迭代和聚类点的输出之间更加稳定。

来源

2015-02-08 05:51:08 VP10

ClusterDump在亨利马乌0.9

回答

相关问题