贝叶斯分类器训练集

-1

我正在研究一个简单的朴素贝叶斯分类器，我对它有一个概念上的问题。贝叶斯分类器训练集

我知道训练集非常重要，所以我想知道在下面的例子中什么构成了好的训练集。假设我正在对网页进行分类并判断它们是否相关。这个决定所基于的因素考虑到了该页面上存在的某些属性的概率。这些将是某些关键字，可以增加页面的相关性。关键字是苹果，香蕉，芒果。相关/不相关的分数是针对每个用户的。假设用户标记页面相关/不相关的可能性相同。

现在对于训练数据，为了得到我的分类器的最佳训练，是否需要将相关结果的数目与不相关的结果相同？我是否需要确保每个用户都有相关/不相关的结果给他们制定一个好的训练集？我需要记住什么？

来源

2014-01-16 John Baum

这是一个微不足道的话题，因为涉及到数百万的因素。 Python是一个很好的例子，因为它驱动了大部分goolge（就我所知）。这使我们开始了谷歌的一开始 - 几年前，在谷歌之前曾经谈论过搜索引擎的拉里佩奇的采访 - 例如，当他键入“大学”这个词时，他发现的第一个结果有这个词“大学”在它的标题几次。

回到朴素贝叶斯分类器 - 有一些非常重要的关键因素 - 假设和模式识别。和关系当然。例如你提到的苹果 - 可能有一些可能性。例如：苹果 - 如果吃，维生素和形状存在，我们假设我们很可能谈论一个水果。如果我们提到电子，屏幕，也许史蒂夫乔布斯 - 这应该是显而易见的。如果我们谈论的是宗教，上帝，花园，蛇 - 那么它必定与亚当和夏娃有关。

因此，根据您的需要，您可以拥有基本的数据段，其中每个数据段都可以包含在其中，或者包含更多细节的复杂结构。所以是的 - 你基于大多数人的基本假设。基于这些，您可以创建更复杂的模式以进一步识别 - Apple-iPod，iPad - 在名称中包含类似的模式，包含类似的关键字，提及某些人 - 最有可能相互关联。

无关的数据很难发现 - 在这一点上，您可能认为我拥有多个Apple设备，在大型iMac上编写，但事实并非如此。所以这将是一个非常错误的假设。所以分类器本身必须做出非常好的分割和分析，才能得出确切的结论。

来源

2014-01-16 23:43:03

如果我的数据是由用户分开的（即，user_id有一组相关的页面，他们搜索哪些然后排序是否相关）是否需要构建围绕同时拥有两种类型页面的用户的培训集？还是它有所作为？ –

所以你正在使用关系数据库？根据事物的规模，你可能想要选择一种不同的方法，就像现在每个人似乎都做的一样。例如，我在工作中使用了couchbase，这是一个面向文档的数据库。我承认 - 从设置和配置的角度来看，这在可靠性和可扩展性方面非常可怕。这也可以让你在他们的档案中建立训练集。 –

不幸的是数据库不在我的控制之下。你能提出我可以用我可用的资源做什么吗？ –

贝叶斯分类器训练集

回答

相关问题