变量的重要性如何,我们一般确定在数据集中给定的变量(功能)是重要的或者不准确做预测任务?确定数据分析
什么所有的测试应该进行,并用于确定预测变量的适用性?
假设我有32个功能,其中之一是“收入”,那么我应该如何开始分析它的重要性。是否有比较其他功能这一功能的任何使用,因为最终的变量的集合,将有助于预测哪些比较没有这两个变量...
变量的重要性如何,我们一般确定在数据集中给定的变量(功能)是重要的或者不准确做预测任务?确定数据分析
什么所有的测试应该进行,并用于确定预测变量的适用性?
假设我有32个功能,其中之一是“收入”,那么我应该如何开始分析它的重要性。是否有比较其他功能这一功能的任何使用,因为最终的变量的集合,将有助于预测哪些比较没有这两个变量...
从这里开始(尤其是对特征选择教程和食谱):
http://machinelearningmastery.com/an-introduction-to-feature-selection/
还有(列出了进一步的谷歌上搜索可用的方法)的数量:
https://en.wikipedia.org/wiki/Feature_selection
还不错的文章对这一问题更广泛的讨论:
http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf
也是最简单的方法就是要尽量合身你的数据集中随机森林或梯度推进机。这些算法在装配自动评估每个功能的重要性,经过分类或回归适合你可以访问(在scikit学习)其feature_importances_
财产 - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html