2014-01-16 133 views
-1

我正在研究一个简单的朴素贝叶斯分类器,我对它有一个概念上的问题。贝叶斯分类器训练集

我知道训练集非常重要,所以我想知道在下面的例子中什么构成了好的训练集。假设我正在对网页进行分类并判断它们是否相关。这个决定所基于的因素考虑到了该页面上存在的某些属性的概率。这些将是某些关键字,可以增加页面的相关性。关键字是苹果,香蕉,芒果。相关/不相关的分数是针对每个用户的。假设用户标记页面相关/不相关的可能性相同。

现在对于训练数据,为了得到我的分类器的最佳训练,是否需要将相关结果的数目与不相关的结果相同?我是否需要确保每个用户都有相关/不相关的结果给他们制定一个好的训练集?我需要记住什么?

回答

1

这是一个微不足道的话题,因为涉及到数百万的因素。 Python是一个很好的例子,因为它驱动了大部分goolge(就我所知)。这使我们开始了谷歌的一开始 - 几年前,在谷歌之前曾经谈论过搜索引擎的拉里佩奇的采访 - 例如,当他键入“大学”这个词时,他发现的第一个结果有这个词“大学”在它的标题几次。

回到朴素贝叶斯分类器 - 有一些非常重要的关键因素 - 假设和模式识别。和关系当然。例如你提到的苹果 - 可能有一些可能性。例如: 苹果 - 如果吃,维生素和形状存在,我们假设我们很可能谈论一个水果。 如果我们提到电子,屏幕,也许史蒂夫乔布斯 - 这应该是显而易见的。 如果我们谈论的是宗教,上帝,花园,蛇 - 那么它必定与亚当和夏娃有关。

因此,根据您的需要,您可以拥有基本的数据段,其中每个数据段都可以包含在其中,或者包含更多细节的复杂结构。所以是的 - 你基于大多数人的基本假设。基于这些,您可以创建更复杂的模式以进一步识别 - Apple-iPod,iPad - 在名称中包含类似的模式,包含类似的关键字,提及某些人 - 最有可能相互关联。

无关的数据很难发现 - 在这一点上,您可能认为我拥有多个Apple设备,在大型iMac上编写,但事实并非如此。所以这将是一个非常错误的假设。所以分类器本身必须做出非常好的分割和分析,才能得出确切的结论。

+0

如果我的数据是由用户分开的(即,user_id有一组相关的页面,他们搜索哪些然后排序是否相关)是否需要构建围绕同时拥有两种类型页面的用户的培训集?还是它有所作为? –

+0

所以你正在使用关系数据库?根据事物的规模,你可能想要选择一种不同的方法,就像现在每个人似乎都做的一样。例如,我在工作中使用了couchbase,这是一个面向文档的数据库。我承认 - 从设置和配置的角度来看,这在可靠性和可扩展性方面非常可怕。这也可以让你在他们的档案中建立训练集。 –

+0

不幸的是数据库不在我的控制之下。你能提出我可以用我可用的资源做什么吗? –