2013-10-16 57 views
2

我需要计算出L和D出现P(L,D)的概率,但它们并不相互独立。我估计了两个不同模型的P(L)和P(D)的概率,我也知道P(L | D)和P(D | L)。至于我可以看到它我的对两种不同的估计(L,d):结合相关的概率

P(L) * P(D|L) and 
P(D) * P(L|D) 

我是最好的关闭只是平均这两个估计的组合P(L,d)?

+3

我怀疑你可能在http://stats.stackexchange.com/ – NPE

回答

1

这两种计算联合分布的方式应该在数值精度内相同。如果您的算法为这两种方式提供了不同的答案,那么它就是代码中的一个错误。

对于一对二元变量,您需要做的全部事情是维护四个结果中的每个结果的出现次数 :(L,D), (!L,D), (L,!D), (!L,!D)。 如果我们让Z=N(L,D)+N(!L,D)+N(L,!D)+N(!L,!D)

那么你所关心的概率就是:

P(L,D)=N(L,D)/Z 

其他(边际,有条件的)概率是:

P(L)=[N(L,D)+N(L,!D)]/Z 
P(D)=[N(L,D)+N(!L,D)]/Z 

P(L | D) = N(L,D)/[ N(L,D)+N(!L,D)] 
P(D | L) = N(L,D)/[ N(L,D)+N(L,!D)] 

一点点代数,你可以看到, P(L|D)P(D)=N(L,D)/Z=P(D|L)P(L)

这指出了如何将不同的估计值合并成一个估计值:将它们转换回到“计数”,然后添加这些计数。这可能发生的情况是我们有两个独立样本S1,S2。假设您从样本S2中的样本S1P(D |L), P(L)估计 。此外, 的概率,我们需要知道每个样本中样本数的计数:N1,N2。注意:结果仅取决于比率N1/N2,因此如果您没有计数,但知道样本大小始终相同,则可以在以下内容中替换为N1=N2=1

N(L,D | S1) = N1*P(L | D) P(D) 
N(L,D | S2) = N2*P(D | L) P(L) 

N(L,D | S1+S2) = N(L,D|S1)+N(L,D|S2) 
P(L,D | S1+S2) = N(L,D|S1+S2)/(N1+N2) 

哪一个在N1==N2的情况下只是平均他们;但只有在样本量相同的特殊情况下才是如此;否则结果是加权平均值。

这是比尔对this question on CrossValidated的回答的简化版本,它处理估计量可能相关和/或涉及估计除经验概率以外的量的情况。

+0

上得到更好的答案P(L)和P(D)是由不同的估计模型产生的。它们不是真正的概率。 –

+1

如果他们不满足概率论的公理,那么你可能不应该对待他们/描述他们;在这种情况下,你的问题是“我怎么把两个任意的启发式信念度量结合起来?”,这是不健康的。但无论如何,我已经添加了有关如何组合可能有所帮助的附加说明,但实际上,答案是:直接估计概率。 – Dave