2012-05-16 240 views

回答

34

实际上,有一个很好的例子on Wikipedia

在简单术语中,朴素贝叶斯分类器假定一个类的特定特征的存在(或不存在)是无关的存在(或不存在)给定类变量的任何其他功能。例如,如果水果是红色,圆形,直径约4英寸,则认为它是苹果,即使这些特征相互依赖或存在其他特征,但朴素贝叶斯分类器会将所有如果你的数据是这些属性的独立贡献,这水果是苹果的概率。

基本上,它是“幼稚”,因为它的前提,可能会或可能不会变成是正确的。

+5

维基百科的文章正确地解释了它,但我不同意“它使得假设可能会或可能不会证明是正确的”。利用适量的训练数据,它可以很好地筛选出不相关的参数。 “天真”的部分是不考虑参数之间的依赖性,因此可能需要查看冗余数据。 – Chip

6

由一个特征向量X = {x1,x2,... x10}和你的类标签Y = {y1,y2,... y5}组成。因此,贝叶斯分类器可以识别正确的类标签,公式:

P(y/X)= P(X/y)* P(y)= P(x1,x2,... x10/y)* P(y)

因此,不天真。然而,很难计算P(x1,x2,... x10/Y),所以我们假设这些特征是独立的,这就是我们所说的朴素假设,因此,我们最终得到下面的公式

P(Y/X)= P(X/Y)* P(X2/Y)* ... P(X10/Y)* P(Y)

2

这就是所谓的幼稚,因为它使假设所有属性都是相互独立的。这个假设就是为什么它被称为天真的,因为在很多现实世界中,这是不合适的。尽管如此,分类器在很多真实世界的情况下工作得非常好,并且在某些情况下(尽管不是全部),其性能与中性网络和SVM相当。

0

对于发现联合分布时的分类问题,它只是反映了训练数据,而且计算起来也很困难。所以我们需要一些更有用的概括。

幼稚模型强烈推论,每个属性独立于任何其他属性分布。

它确实有助于在很大程度上不关心属性间的依赖关系。