2012-11-20 115 views
1

我想基于过去发生的列表计算百分比概率。
数据看起来与此简化表类似,例如,当过去的第一个值为8时,事件发生的概率为72%。根据每个值的过去概率计算新概率

1 76% 
2 64% 
4 80% 
6 85% 
7 83% 
8 72% 
11 70% 

全表范围从0到1030,有377行,但每天都在变化。我想传递一个值为3的函数,并返回事件发生的百分比概率。我不需要确切的代码,但希望指出正确的方向。 谢谢

+0

谢谢菲尔,看起来好多了。 – user1837966

+0

你是多么确定这两者是相关的?由于2的值仅比11的值低6%,但与1和4的值相差12%和16%,你可以推断出大约3?是否应该在2和4的值之间? –

+0

这些值是相关的,但有些模糊,第1列中的一些值比其他值更频繁或根本没有。所以不,它不像在更低和更高值之间的一半那么简单。在实际表格中,随着第1列中的数字增加,概率趋于下降。有什么方法可以将实际数据发送给您? – user1837966

回答

0

根据你在问题的评论中的答案,我会建议一个插值---线性插值是最简单的答案。基于电子表格中的系列,看起来似乎不适合概率模型(第1列和第3列之间似乎没有明确的关系)。

举一个例子说明这是如何工作的:假设你想要一个点p的概率,这在数据中是不可见的。您观察到的最大值是,比p小是p_low(具有相应的概率f(p_low)),并且大于p的最小值是p_high(具有概率f(p_high))。您对于p的估计是:

interval = p_high - p_low 
f_p_hat = ((p-p_low)/interval*f_p_low) + ((p_high-p)/interval*f_p_high) 

这将让你估计的p值的加权平均值在p_low和p_high,由p和p_low,p和p_high之间的距离给出权重。例如。如果p在p_low和p_high之间是等距的,则f_p_hat(你对f(p)的估计)就是p_low和p_high的平均值。

现在,如果您有理由怀疑端点估计值不准确(可能由于样本量较小),则线性插值可能无法正常工作。如果是这样,就有可能对p周围的点进行(可能加权的)最小二乘拟合,并将其用作预测。如果是这种情况,我可以详细介绍一下。

+0

谢谢本。我会试一试,看看它的表现如何几个星期。你的第二个选项包括更多的周围数据点可能更有效,我也会尝试。我感谢您的帮助。 – user1837966