1

我正在实现一个朴素的朴素贝叶斯分类器,但我不明白如何正确计算类的条件概率(P(d | c))。为了完整起见,我很快想解释使用的术语。朴素贝叶斯概率由计算:NaiveBayes分类器:我必须连接一个类的所有文件吗?

enter image description here

c表示的任意类,而d是一个文件。令x = {x 1,x 2,...,x n}是n个特征的列表,例如50个最常见的bigrams)。

在我的训练集中,有一个类(由一个名为c_i的文件夹表示),每个类都有k个文档(由普通文本文件表示)。

先验概率 P(c)中可以容易地计算:

enter image description here

现在我想要计算P(d | c)中。这应该由

enter image description here

做现在我不明白清楚如何计算P(X_I | C)。我把特征x_i(让我们说bigram“th”),现在检查它在c类中出现的频率。但我该怎么做?每个班级由k个文件表示。我必须连接所有这些文件吗?后来我肯定不得不除以“所有功能的总数”。这是否是所有(级联)文档中bigram“th”的频率?

回答

0

贝叶斯方法假设一个文档是一组独立于某个概率分布的单词。基于这种独立性假设,您确实可以连接一个类中的所有文档,并使用类文档联合的词频作为对类概率分布的估计。

相关问题