混合（二进制和数字）向量的相似度得分

我有一个数据集，其中约200个要素的实例，其中约11个是数值（整数），其余为二进制（1/0），这些要素可能相互关联，它们是不同的概率分布，混合（二进制和数字）向量的相似度得分

它已经有一段时间，我一直有一个良好的相似性得分，其适用于混合的载体，并考虑到了功能之间的相关性，

你知道这种相似性分数？

感谢，阿里安

的多种类型的距离测量，Euclidean，Manhattan，等会提供根据数据集不同级别的精确度。最好阅读有关您的数据拟合方法的论文，并查看他们使用的启发式方法。更不用说有些方法只需要相应比例的同质数据。 Here是一篇论文，介绍了您可能会觉得有吸引力的一整套措施。

与往常一样，测试和交叉验证以查看是否真的存在混合要素类型的影响。

2012-11-09 23:33:25 enjoylife

你是否知道任何统计软件包与相似度得分都很好，并且有很多这样的统计软件包？ –

如果你有权访问这样昂贵的程序，Matlab有很多措施。否则，我相信谷歌会是你的朋友。 – enjoylife

在你的情况下，相似性函数在很大程度上依赖于输入数据模式。您可以从保存训练数据之间的距离关系的一对相似/不相似点的给定集合的数据的输入空间学习距离度量获益。

Here是一个很好的调查报告。

2012-11-12 03:02:11 greeness

其实我为什么要定义一个相似性度量是因为我想为降采样做群集！所以无法从数据中学习 –

您不需要标记数据即可了解距离度量。歧管学习和内核方法都是这些方法的例子。 – greeness

回答