feature-engineering

    1热度

    1回答

    我希望能够获取字典(记录)的列表,其中某些列的值列表为单元格的值。下面是一个例子 [{'fruit': 'apple', 'age': 27}, {'fruit':['apple', 'banana'], 'age': 32}] 我怎么能借此输入并对其进行功能散列(在我的数据集我有成千上万的列)。目前我正在使用一种热门编码,但这似乎消耗了很多内存(比我的系统上的更多)。 我试图把我的数据集作为

    1热度

    1回答

    我想从一个连续变量改变我的特征“年龄”,年龄范围为二元分类的分类变量,像这样的最小方差的块大小: df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90']) 不过我想要以最佳方式分割它,以便可以最有效地分类数据。即年龄范围内班级的差异最小化,而不是过度拟合。 是否

    2热度

    1回答

    在随机森林的Mllib版本中,有可能使用参数categoricalFeaturesInfo 指定具有名义特征(数值但仍为分类变量)的列什么是ML随机森林?在用户指南there is an example使用VectorIndexer的类别特征转换矢量为好,但它的写有“自动识别类别特征,并对其进行索引” In the other discussion of the same problem我发现数值

    -2热度

    1回答

    当使用机器学习中的功能并以矩阵表示它们时,推荐的方法是将每天的小时和星期几表示为值预测模型的功能? 对于所有小时值和小时值1使用0表示将这些属性表示为特征的首选方式?一周中的哪一天都一样? 感谢

    1热度

    1回答

    因此,我有两组功能,我希望装箱(分类),然后组合以创建新功能。这与将地图上的坐标分类成网格无异。 问题是功能不是均匀分布的,我想在binning时使用分位数(如pandas.qcut())在这两个功能/坐标上。 有没有比两个功能上的更好的方法,然后连接结果标签?

    0热度

    1回答

    我在sklearn中训练了一个逻辑回归分类器。我的基本特征文件有65个特征,现在我通过考虑二次组合(使用PolynomialFeatures())将它们外推到1000。然后我通过Select-K-Best()方法将它们还原为100。 但是,一旦我训练了我的模型并获得了新的test_file,它将只具有65个基本特征,但我的模型预计会有100个特征。 所以,我怎么能应用在我的测试集选择-K-最佳()