我正在研究一个简单的朴素贝叶斯分类器,我对它有一个概念上的问题。贝叶斯分类器训练集
我知道训练集非常重要,所以我想知道在下面的例子中什么构成了好的训练集。假设我正在对网页进行分类并判断它们是否相关。这个决定所基于的因素考虑到了该页面上存在的某些属性的概率。这些将是某些关键字,可以增加页面的相关性。关键字是苹果,香蕉,芒果。相关/不相关的分数是针对每个用户的。假设用户标记页面相关/不相关的可能性相同。
现在对于训练数据,为了得到我的分类器的最佳训练,是否需要将相关结果的数目与不相关的结果相同?我是否需要确保每个用户都有相关/不相关的结果给他们制定一个好的训练集?我需要记住什么?
如果我的数据是由用户分开的(即,user_id有一组相关的页面,他们搜索哪些然后排序是否相关)是否需要构建围绕同时拥有两种类型页面的用户的培训集?还是它有所作为? –
所以你正在使用关系数据库?根据事物的规模,你可能想要选择一种不同的方法,就像现在每个人似乎都做的一样。例如,我在工作中使用了couchbase,这是一个面向文档的数据库。我承认 - 从设置和配置的角度来看,这在可靠性和可扩展性方面非常可怕。这也可以让你在他们的档案中建立训练集。 –
不幸的是数据库不在我的控制之下。你能提出我可以用我可用的资源做什么吗? –