2012-11-09 43 views
2

我有一个数据集,其中约200个要素的实例,其中约11个是数值(整数),其余为二进制(1/0),这些要素可能相互关联,它们是不同的概率分布,混合(二进制和数字)向量的相似度得分

它已经有一段时间,我一直有一个良好的相似性得分,其适用于混合的载体,并考虑到了功能之间的相关性,

你知道这种相似性分数?

感谢, 阿里安

回答

2

的多种类型的距离测量,EuclideanManhattan,等会提供根据数据集不同级别的精确度。最好阅读有关您的数据拟合方法的论文,并查看他们使用的启发式方法。更不用说有些方法只需要相应比例的同质数据。 Here是一篇论文,介绍了您可能会觉得有吸引力的一整套措施。

与往常一样,测试和交叉验证以查看是否真的存在混合要素类型的影响。

+0

你是否知道任何统计软件包与相似度得分都很好,并且有很多这样的统计软件包? –

+0

如果你有权访问这样昂贵的程序,Matlab有很多措施。否则,我相信谷歌会是你的朋友。 – enjoylife

3

在你的情况下,相似性函数在很大程度上依赖于输入数据模式。您可以从保存训练数据之间的距离关系的一对相似/不相似点的给定集合 的数据的输入空间学习距离度量获益。

Here是一个很好的调查报告。

+0

其实我为什么要定义一个相似性度量是因为我想为降采样做群集!所以无法从数据中学习 –

+1

您不需要标记数据即可了解距离度量。歧管学习和内核方法都是这些方法的例子。 – greeness