1

朴素贝叶斯和逻辑回归都可以将这两个数据集完全分类吗?我的理解是朴素贝叶斯可以用复杂术语进行逻辑回归分类这些数据集。如果我错了,请帮忙。此数据集的Logistic回归和朴素贝叶斯

数据集的图片是在这里:

enter image description here

+0

很难回答这个问题。也许根据以前的实验可以给出一个想法,但是,哪一个是最好的,如果您已经标记了训练数据,请尝试并查看不同的算法和模型。 –

+0

查看我更新的答案。以前的答案是不正确的。 – user1149913

+0

+1难以置信,这还没有完成,另请参阅http://stats.stackexchange.com/questions/242176/can-naive-bayes-fit-non-linear-decision-boundaries – tomka

回答

4

让我们运行在两个类似的数据集两种算法给你贴,看看会发生什么的...

编辑以前的答案我张贴是不正确的。我忘记考虑高斯朴素贝叶斯方差。 (以前的解决方案是使用具有固定身份协方差的高斯人的朴素贝叶斯,这给出了线性决策边界)。

事实证明,LR在循环数据集失败,而NB可能成功。 这两种方法都在矩形数据集上成功。

LR决策边界是线性的,而NB边界是二次的(具有不同协方差的两个轴对齐的高斯之间的边界)。

应用NB圆形数据集给出了两个平均位置大致相同但方差不同的方法,导致了一个大致圆形的决策边界 - 随着半径的增加,方差高斯的概率与低位方差高斯。在这种情况下,内圆上的许多内点都被错误地分类。

下面的两幅图显示了具有固定方差的高斯NB解。

Circular Dataset (Identity covariance gaussian naive bayes)

Rectangular Dataset (Identity covariance gaussian naive bayes)

在下面的曲线图中,等值线代表NB溶液的概率轮廓。 这个高斯NB解决方案也学习单个参数的方差,导致解决方案中的轴对齐协方差。

Circular Dataset (Gaussian naive bayes - axis-aligned covariance)

Rectangular Dataset (Gaussian naive bayes - axis-aligned covariance)

+0

正如我在我的答案中发布的,如果您获取特征空间的直方图,两种方法都可以处理循环问题 –

0

您怎么评价这些数据集用朴素贝叶斯?

在通常的形式中,朴素贝叶斯需要二进制/分类数据。

+0

大多数工具包会bin将数据转化为引擎盖下的类别,产生直方图。具有对角协方差的线性判别分析是朴素贝叶斯分类器的连续版本(独立法线,对于每个特征,以类别为条件)。 –

2

原则上,朴素贝叶斯/ Logistic回归可以获得这两张图片中的第二张(右),因为存在完全分离的线性决策边界。

如果您在特征上使用了具有类条件正态分布的连续版朴素贝叶斯,则可以将其分开,因为红色类的方差大于蓝色的方差,因此您的决策边界将为圆形。你最终会得到具有相同平均值(两个环的中心点)的两个类的分布,但是在红色类中受限制的特征的差异将大于在蓝色类中受限制的特征的差异,导致在边缘的某个地方形成一个循环的决策边界。不过,这是一个非线性分类器。

只要直方图的宽度足够窄,就可以得到与特征空间的直方图合并效果相同的效果。在这种情况下,逻辑回归和朴素贝叶斯都可以基于直方图特征向量进行工作。