NaiveBayes分类器：我必须连接一个类的所有文件吗？

我正在实现一个朴素的朴素贝叶斯分类器，但我不明白如何正确计算类的条件概率（P（d | c））。为了完整起见，我很快想解释使用的术语。朴素贝叶斯概率由计算：NaiveBayes分类器：我必须连接一个类的所有文件吗？

enter image description here

c表示的任意类，而d是一个文件。令x = {x 1，x 2，...，x n}是n个特征的列表，例如50个最常见的bigrams）。

在我的训练集中，有一个类（由一个名为c_i的文件夹表示），每个类都有k个文档（由普通文本文件表示）。

的先验概率 P（c）中可以容易地计算：

enter image description here

现在我想要计算P（d | c）中。这应该由

enter image description here

做现在我不明白清楚如何计算P（X_I | C）。我把特征x_i（让我们说bigram“th”），现在检查它在c类中出现的频率。但我该怎么做？每个班级由k个文件表示。我必须连接所有这些文件吗？后来我肯定不得不除以“所有功能的总数”。这是否是所有（级联）文档中bigram“th”的频率？

2015-06-14 null

贝叶斯方法假设一个文档是一组独立于某个概率分布的单词。基于这种独立性假设，您确实可以连接一个类中的所有文档，并使用类文档联合的词频作为对类概率分布的估计。

2015-06-15 10:42:24

回答