我已经陷入这个奇怪的高维聚类问题。这是一个类比来解释它。来自观察集合的高维聚类
想象一下,2^10人进入森林,我们想知道有多少鸟类在那里生活。
这些鸟彼此不同,比如128个维度,所有维度都是二元的。也就是说:无论是鸟有大喙还是小喙,要么有蓝色翅膀,要么没有,等等(每种鸟种可以用128位表示)
我的问题是, “我看到8只鸟,3只有蓝色喙(5只没有),4只有蓝色翅膀(4只没有),1只有一只蓝色翅膀大喙(7没有)等“。他们不要报告他们的观察的个人特征,但只有他们观察的总和。
还有两个附加约束条件:
i)所有物种都至少观察一次; ii)物种数量很少(〜2^5)。
当然,我们可以汇总它们的总数(3000个观测值,357只鸟有大喙等)。但是集群呢?
所以问题是:
,我们如何才能找到种类有多少生活在那里?
我们怎样才能找出每个物种的特征?
是啊,我忘了补充两个约束: 我)所有的物种都至少观察一次; ii)物种数量很少(〜2^5)。 谢谢。我正在更新这个问题。 – linhares