2015-03-08 91 views
-1

我在寻找一个Weka分类器来处理这个问题:
一个实例是一个triolet(或更多)reals(或不是):xy和z。
我只知道积极的例子(所以我可以训练)。

例:

3.524,-4.529875,3.6295626
2.7670588,-3.4611764,6.03
3.878375,-4.47225,4.6831875
4.6477776,-4.3755555,3.6093333
3.8646667,-4.043389,3.3882778

Weka是什么分类器?

所以,现在我想创建一个分类器。如果是或者否,它可以说我(以百分比的概率)一个新实例在这个“同一个家庭”中。
在此先感谢您的答案。

回答

0

做监督二进制分类的最好方法是用两个类的数据来训练分类器。尽管只有正面数据的培训分类器有报道,但我的经验并不那么美好。这两个类的人类标记数据与自动标记来自未标记数据池的负类数据的过程之间存在巨大差异。

该方法可以找到herehere。但是这些方法有其局限性,我的建议是为专家标记合理数量的负面数据实例。如果成本太高,那么您可以从小的负面数据开始,应用半监督学习来增加负面数据或使用SMOTE综合增加负面数据。但是这些又有其局限性。

+0

再次感谢拉什迪,假设我的负面实例与正面实例一样多。不幸的是,这些负面数据太差了,没有一个好的分类器。我可以说一个新的实例吗? :好吧,如果你是积极的,这是好的(概率超过0.5),但如果你不是 - >没有另一个测试否定。总结一下,我想只是使用概率来积极。 – berguiz 2015-03-09 09:34:58

+0

是的,如果您的负面实例具有与正值相同的特征值,那么它是可行的。如果正面和负面数据的性质不同,那么这是一个质量问题。但从数量上来说,这是非常可行的。 – 2015-03-09 17:44:14