是否有一个基于百分比的排名指标有利于较大幅度？

我有两个组，“in”和“out”以及可以在组中分组的项目类别。例如，我可以拥有99％“in”和1％“out”的项目类别A，以及98％“in”和2％“out”的项目B.是否有一个基于百分比的排名指标有利于较大幅度？

对于这些项目中的每一个，我实际上都有进/出的计数。例如，A可能有99个项目和1个项目，而B可能有196个项目在和4个出局。

我想根据“in”的百分比对这些项目进行排名，但我也想优先考虑具有较大整体人口的项目。这是因为我想重点关注与“进”组非常相关的项目，但仍然有大量我可以追求的“出”组中的项目。

是否有某种类型的分数可以做到这一点？

2016-07-27 neelshiv

[Cross-post]（http://stats.stackexchange.com/questions/225975/is-there-a-ranking-metric-based-on-percentages-that-favors-larger-magnitudes） – unor

我最终结束了使用贝叶斯平均，将其在this post.推荐技术在this wikipedia article简要地描述并在this post by Evan miller和this post by Paul Masurel更彻底地描述的。

在贝叶斯平均中，“先验值”用于影响分子和分母朝向期望值。本质上，预期的分子和预期的分母被加到实际的分子和分母上。在分子和分母较小的情况下，先验值的影响较大，因为它们代表新分子/分母的较大比例。随着分子和分母的数量增长，由于信心增强，贝叶斯平均值开始接近实际平均值。

在我的情况下，平均值的先验值相当低，这使得平均值偏低，分母下降。

2016-07-29 12:30:16 neelshiv

我会试图使用概率排名—项目类别来自组的实际数字的概率。这需要对数据集做出一些假设，包括为什么一个类别可能有任何组外项目。你可以看看binomial test或Mann-Whitney U test作为开始。您也可以查看其他种类的nonparametric statistics。

2016-07-27 19:45:36

谢谢！我应该澄清我的一些额外数字。对于一个类别，我知道进出数量。我也知道所有类别的总数以及所有类别的总数。我会看看你提供的链接，看看它们是否有效。 – neelshiv

@neelshiv - 我想你有所有的信息。你没有指出的是你是否有概率分布来解释数据。这就是为什么我建议使用非参数方法，因为这些方法需要较少的假设（当然是以牺牲分辨力为代价;这里没有免费午餐）。如果您愿意承担特定的分销，您可以使用适当的参数测试分数来进行排名。 –

gotcha。让我阅读这些主题并尝试几件事情，我会在一天左右回来报告。 – neelshiv

回答