2013-06-11 104 views
0

我遇到了this example,其中涉及完成测试数据集的面部。这里,max_features的值32传递给ExtraTreesRegressor()函数。我了解到构建的决策树会从输入数据集中选择随机特征。对于上述链接的示例,图像用作列车和测试数据集。 This wiki page描述了各种类型的图像特征。现在我无法了解哪些功能剂量sklearn.ensemble.ExtraTreeRegressor寻找或提取作为输入提供的图像数据集来构建随机森林。另外,如何确定32的值对于max_features是最佳值。请帮我解决一下这个。Scikit的ExtraTreeRegressor考虑的功能学习构建随机森林

回答

5

随机森林不做特征提取。他们使用给定的数据集中的特征,在这个例子中,这些特征只是来自Olivetti faces数据集的像素强度。

max_features参数为ExtraTreesRegressor决定了“查找最佳拆分时要考虑的功能数量”(在森林使用的decision tree learning algorithm内)。

值32可能是凭经验确定的。

5

这里使用的特征是原始像素值。由于数据集中的图像是一致的,而且非常相似,这似乎足以完成任务。

2

正如其他人所说:在这个朴素的例子中没有特征提取:额外的树只是使用原始像素作为特征。

在更真实的计算机视觉设置中,执行手动调整特征提取很可能会导致更有趣的模型。要提取的功能类型取决于您要实现的计算机视觉任务。阅读OpenCV库中的文献或示例以了解计算机视觉领域的最新技术(将神经网络表示学习放在一边,作为现在的最新研究成果)。

该参数的32值可以随机搜索。以主分支中的示例为例:

http://scikit-learn.org/dev/auto_examples/randomized_search.html#example-randomized-search-py