2012-12-18 15 views
3

我已经陷入这个奇怪的高维聚类问题。这是一个类比来解释它。来自观察集合的高维聚类

想象一下,2^10人进入森林,我们想知道有多少鸟类在那里生活。

这些鸟彼此不同,比如128个维度,所有维度都是二元的。也就是说:无论是鸟有大喙还是小喙,要么有蓝色翅膀,要么没有,等等(每种鸟种可以用128位表示)

我的问题是, “我看到8只鸟,3只有蓝色喙(5只没有),4只有蓝色翅膀(4只没有),1只有一只蓝色翅膀大喙(7没有)等“。他们不要报告他们的观察的个人特征,但只有他们观察的总和。

还有两个附加约束条件:

i)所有物种都至少观察一次; ii)物种数量很少(〜2^5)。

当然,我们可以汇总它们的总数(3000个观测值,357只鸟有大喙等)。但是集群呢?

所以问题是:

  1. ,我们如何才能找到种类有多少生活在那里?

  2. 我们怎样才能找出每个物种的特征?

回答

2

由于2^128 = 340282366920938463463374607431768211456,您需要相当高的样本量才能得出有效的结论。观察到的每只鸟都很容易独特。

+0

是啊,我忘了补充两个约束: 我)所有的物种都至少观察一次; ii)物种数量很少(〜2^5)。 谢谢。我正在更新这个问题。 – linhares

2

如果x一个人一套鸟类聚集的观察,那么你可以通过矩阵乘积Dz其中D是一个矩阵,它的列代表单个鸟的特性近似它,z是计数的矢量每只鸟。

如果您认为只有少量的鸟类被观察到,那么这会作为z的大小的限制。

此问题与稀疏字典学习问题非常相似。

这里有一对夫妇的两个稀疏描述字典学习(和相关问题)联系,并提供软件来解决这个问题:http://spams-devel.gforge.inria.fr/http://www.ux.uis.no/~karlsk/dle/index.html