2
我在CMU的Tom Mitchell看到机器学习课程视频,当然是10-701年。当他使用Beta分布作为theta的前期时,他正在讲授主题极大似然估计,我不知道他只选择了那个?为什么我们选择Beta分布作为假设的先验?
我在CMU的Tom Mitchell看到机器学习课程视频,当然是10-701年。当他使用Beta分布作为theta的前期时,他正在讲授主题极大似然估计,我不知道他只选择了那个?为什么我们选择Beta分布作为假设的先验?
在this lecture,教授米切尔给出硬币抛掷和估计其公平性,即头的概率的一个例子 - THETA。他为此实验合理选择了binomial distribution。
之所以选择beta distribution是因为在计算后验时简化了数学。这很好,因为beta是一个conjugate prior for binomial - 在同一个讲座的最后,专家提到它。这并不意味着人们不可能使用任何其他的事先例如正态分布,泊松分布等等,但其他的先验分布导致了复杂的后验分布,这些分布很难优化,计算积分等。
这是一个普遍原理:在更复杂的分布之前,完全符合数据,因为数学更简单。