2013-04-22 38 views
0

我是Apache Mahout新手。我试图了解哪些命名向量属于哪个集群。互联网上的大量资源都是关于文本文档的,并使用命令clusterdump。但是,我的数据集非常庞大,运行该命令始终导致Java内存不足异常。此外,我不认为使用clusterdump会回答我的问题。每个Mahout群集中的向量

我想知道这是否是可以理解不外乎其命名为载体属于哪个使用目录clusteredPointsclusters-[0-9]+clusters-*-final

如果有帮助,用户到目前为止,我已经形成簇群基础对他们的歌曲聆听习惯。为此,我最初使用NamedVectors创建了一个序列文件,其中NamedVector的名称是userId,Vector本身是一个包含用户收听歌曲标签权重的双数组(下面的示例)。

AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ... 
    ... 
    ... 
    ... 

然后,我成功运行k-means。我在目录clusteredPoints中输出(大约88个文件,其名称如part-m-00088)以及我认为包含质心的目录集群。

感谢您的帮助!

回答

0

我认为你需要做一些研究clusterdump,尝试象夫clusterdump --help 试试这个

mahout clusterdump -i clusters-*-final/part-r-00000 -o output -p clusteredPoints/part-m-00000 

,并尝试这个link作进一步的解释。

,你也可以尝试添加选项-of CSV, 你就会有这样的显示:

  • id_cluster1,VEC 1,vec2..vecl
  • id_cluster2,VEC 1,vec2..vecl
  • ...