2017-10-16 53 views
0

我对历史数据的分类变量执行了k模式聚类。我做了聚类,因为我想看看数据落入了什么样的簇。现在我有了输出,如果有新数据进来,有什么方法可以预测它会落入的群集。使用k模式输出来预测

一种方法可能是,因为我有每行的数据和它所属的集群,我可以将它用作列车数据并进行监督式学习。但我想知道是否有任何可能的方法存在,我可以使用现有的输出变量来预测(半监督学习)

我可能无法共享任何数据或输出,因为我工作一个客户,但如何处理的任何方向将是非常有帮助的。我一直在研究它相当长的一段时间,但找不到合适的解决方案。

+0

如果您无法提供[可重现的示例](https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example),那么我们无法提供帮助。它不一定是您的实际数据,但您应该能够使用模拟数据或R中的内置数据集中的一个创建示例。 – MrFlick

+2

在群集数据上训练您选择的分类器。然后使用分类器预测新数据。 – G5W

+0

或者,将“训练”和“测试”数据集中在一起。这在计算上更加昂贵,因为每次新数据可用时都必须重新运行算法。 –

回答

0

大多数聚类算法无法预测新数据。

KMeans和GMM是例外,k模式应该像k-means一样工作(找到最相似的模式)。

但通常情况下,当您使用群集时,您应该分析群集并仔细检查,因为群集不会100%正确。通常情况下,你会想要运行A的一些集群,一些运行B的等等。无论有什么意义。然后在已审查的,已清理的群集上进行分类器的预测。