2016-07-27 11 views
1

我有两个组,“in”和“out”以及可以在组中分组的项目类别。例如,我可以拥有99%“in”和1%“out”的项目类别A,以及98%“in”和2%“out”的项目B.是否有一个基于百分比的排名指标有利于较大幅度?

对于这些项目中的每一个,我实际上都有进/出的计数。例如,A可能有99个项目和1个项目,而B可能有196个项目在和4个出局。

我想根据“in”的百分比对这些项目进行排名,但我也想优先考虑具有较大整体人口的项目。这是因为我想重点关注与“进”组非常相关的项目,但仍然有大量我可以追求的“出”组中的项目。

是否有某种类型的分数可以做到这一点?

+0

[Cross-post](http://stats.stackexchange.com/questions/225975/is-there-a-ranking-metric-based-on-percentages-that-favors-larger-magnitudes) – unor

回答

1

我最终结束了使用贝叶斯平均,将其在this post.推荐技术在this wikipedia article简要地描述并在this post by Evan millerthis post by Paul Masurel更彻底地描述的。

在贝叶斯平均中,“先验值”用于影响分子和分母朝向期望值。本质上,预期的分子和预期的分母被加到实际的分子和分母上。在分子和分母较小的情况下,先验值的影响较大,因为它们代表新分子/分母的较大比例。随着分子和分母的数量增长,由于信心增强,贝叶斯平均值开始接近实际平均值。

在我的情况下,平均值的先验值相当低,这使得平均值偏低,分母下降。

1

我会试图使用概率排名—项目类别来自组的实际数字的概率。这需要对数据集做出一些假设,包括为什么一个类别可能有任何组外项目。你可以看看binomial testMann-Whitney U test作为开始。您也可以查看其他种类的nonparametric statistics

+0

谢谢!我应该澄清我的一些额外数字。对于一个类别,我知道进出数量。我也知道所有类别的总数以及所有类别的总数。我会看看你提供的链接,看看它们是否有效。 – neelshiv

+0

@neelshiv - 我想你有所有的信息。你没有指出的是你是否有概率分布来解释数据。这就是为什么我建议使用非参数方法,因为这些方法需要较少的假设(当然是以牺牲分辨力为代价;这里没有免费午餐)。如果您愿意承担特定的分销,您可以使用适当的参数测试分数来进行排名。 –

+0

gotcha。让我阅读这些主题并尝试几件事情,我会在一天左右回来报告。 – neelshiv