2016-05-14 48 views
1

有人能给我一个清晰和简单的最大熵分类的定义吗?如果有人能够提供一个明确的比喻,这将会非常有帮助,因为我正在努力去理解。什么是最大熵?

回答

1

“Maximum Entropy”与“Least Informative”同义。你不会想要一个信息量最小的分类器。它是关于前辈是如何建立的。坦率地说,“最大熵分类”是一个使用时髦词汇的例子。

对于无信息的先验的例子,考虑给定一个六边对象。如果物体被扔掉,任何给定的脸部将出现的概率是1/6。这将是您先前的开始。这是最少的信息。你真的不想从其他任何东西开始,否则你会偏向后面的计算。当然,如果你知道一方会更频繁地出现,那么你应该把它融入你的先验。贝叶斯公式为P(H | E)= P(E | H)P(H)/ P(D) 其中P(H)是假设的先验值,P(D)是和所有可能的分子。

对于缺少单词插入的文本分类,E是给定的文档,H是给定的单词。 IOW,假设是H是应该选择的词并且P(H)是赋予词的权重。

最大熵文本分类意味着:从最少信息权重(先验)开始,并进行优化以找到最大化数据可能性的权重P(D)。本质上,它是EM算法。

简单的朴素贝叶斯分类器会假设先前的权重与单词出现在文档中的次数成正比。但是,这忽略了单词之间的相关性。

所谓的MaxEnt分类器考虑了相关性。

我想不出一个简单的例子来说明这一点,但我可以想到一些相关性。例如,英语中的“失踪”应该给名词更高的权重,但如果朴素贝叶斯分类器的相对频率与给定名词相同,则其可以给动词赋予相同的权重。考虑到缺失的MaxEnt分类器会给名词带来更多的分量,因为它们在上下文中可能性更大。