2010-05-04 133 views
2

当您为Adaboost算法的训练数据使用Haar-like特征时,如何构建数据集?你是否真的需要找到成千上万的正面和负面的样本?必须有一个更有效的方式做到这一点...机器学习 - 培训步骤

我想分析图像在matlab(不是脸),并且是相对较新的图像处理。

+1

尝试添加标签'machine-learning'和'image-processing' – Geoff 2010-05-04 13:34:25

回答

4

是的,你确实需要许多正面和负面的训练样本。对于Adaboost来说尤其如此,Adaboost通过重复采样训练集来工作。很难说出多少样品就够了。但一般来说,越好越好,因为这会增加您的训练集具有代表性的机会。

另外,在我看来,你对效率的追求是错位的。培训提前完成,大概是脱机。培训完成后对未知实例进行分类的效率是人们通常担心的。

0

毫无疑问,更多的数据,更多的信息,更好的结果。您应该尽可能包含更多信息。但是,您可能需要注意的一件事是正集与负集之比。对于logistic回归,比率不应超过1:5,对于adaboost,我不确定结果,但肯定会随着比例(我之前尝试过)而改变。

0

是的,我们需要许多正面和负面的训练样本,但收集这些数据非常繁琐。但是,您可以通过拍摄视频而非图片并使用ffmpeg将这些视频转换为图片来简化操作。这将使训练部分更容易。

0

具有相同的正面和负面样品的唯一原因是避免偏见。有时你可能会得到较高的准确性,但完全不能对一个类别进行分类。为了评估这样的方法,精度/回忆比精度更有用。