2016-03-14 58 views
0

对于我的论文分配,我需要对包含来自零售商店(+1000维度)的购买数据的高维数据集执行聚类分析。由于传统的聚类算法不适合高维(并且降维不是真正的选择),因此我想尝试为高维数据(例如ProClus)专门开发的算法。R中的ProClus聚类分析

但是在这里,我的问题开始了。 ProClusAlgorithm

我不知道我应该使用什么值参数d。谁能帮我?

回答

0

这只是ProClus许多限制之一。

该参数是群集的平均值维度。它假定在​​您的数据中有一个线性群集。这可能不会适用于购买数据,但您可以尝试。对于稀疏等数据购买,我宁愿专注于频繁项目集挖掘。

没有通用聚类算法。任何聚类算法都会附带您需要试验的各种参数。

对于聚类分析,至关重要的是您可以以某种方式可视化或分析结果,以便能够找出该方法是否工作以及如何进行。

+0

该作业特别要求将客户集中在一起,而不是产品。你知道一个算法可以处理1000 +维稀疏矩阵吗? – JaperTIA

+0

大量的算法可以处理它。更好的问题是:什么是好的群集,我如何找到它? - 这是一个你需要回答的问题。因为我认为ProClus群集不适合客户。但是,你可以*通过他们购买的频繁项目集聚集客户。您可以获得具有相同购物行为的客户群。 (请注意,客户*可能属于多个或不属于这些群集,而且这是*好的。) –