机器学习 - 培训步骤

当您为Adaboost算法的训练数据使用Haar-like特征时，如何构建数据集？你是否真的需要找到成千上万的正面和负面的样本？必须有一个更有效的方式做到这一点...机器学习 - 培训步骤

我想分析图像在matlab（不是脸），并且是相对较新的图像处理。

2010-05-04 palau1

尝试添加标签'machine-learning'和'image-processing' – Geoff 2010-05-04 13:34:25

是的，你确实需要许多正面和负面的训练样本。对于Adaboost来说尤其如此，Adaboost通过重复采样训练集来工作。很难说出多少样品就够了。但一般来说，越好越好，因为这会增加您的训练集具有代表性的机会。

另外，在我看来，你对效率的追求是错位的。培训提前完成，大概是脱机。培训完成后对未知实例进行分类的效率是人们通常担心的。

2010-05-04 16:35:16 Dima

毫无疑问，更多的数据，更多的信息，更好的结果。您应该尽可能包含更多信息。但是，您可能需要注意的一件事是正集与负集之比。对于logistic回归，比率不应超过1：5，对于adaboost，我不确定结果，但肯定会随着比例（我之前尝试过）而改变。

2013-03-26 13:54:26

是的，我们需要许多正面和负面的训练样本，但收集这些数据非常繁琐。但是，您可以通过拍摄视频而非图片并使用ffmpeg将这些视频转换为图片来简化操作。这将使训练部分更容易。

2013-11-23 14:41:08 Aadeshnpn

具有相同的正面和负面样品的唯一原因是避免偏见。有时你可能会得到较高的准确性，但完全不能对一个类别进行分类。为了评估这样的方法，精度/回忆比精度更有用。

2014-07-02 16:18:24 efn

回答