feature-engineering

1热度

1回答

我希望能够获取字典（记录）的列表，其中某些列的值列表为单元格的值。下面是一个例子 [{'fruit': 'apple', 'age': 27}, {'fruit':['apple', 'banana'], 'age': 32}] 我怎么能借此输入并对其进行功能散列（在我的数据集我有成千上万的列）。目前我正在使用一种热门编码，但这似乎消耗了很多内存（比我的系统上的更多）。我试图把我的数据集作为

1热度

1回答

的Python - 分类

我想从一个连续变量改变我的特征“年龄”，年龄范围为二元分类的分类变量，像这样的最小方差的块大小： df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90']) 不过我想要以最佳方式分割它，以便可以最有效地分类数据。即年龄范围内班级的差异最小化，而不是过度拟合。是否

2热度

1回答

如何处理Spark中最新的随机森林中的分类特征？

在随机森林的Mllib版本中，有可能使用参数categoricalFeaturesInfo 指定具有名义特征（数值但仍为分类变量）的列什么是ML随机森林？在用户指南there is an example使用VectorIndexer的类别特征转换矢量为好，但它的写有“自动识别类别特征，并对其进行索引” In the other discussion of the same problem我发现数值

-2热度

1回答

什么是最好的方式来表示星期几和星期几作为机器学习中的价值预测模型的一个特征？

当使用机器学习中的功能并以矩阵表示它们时，推荐的方法是将每天的小时和星期几表示为值预测模型的功能？对于所有小时值和小时值1使用0表示将这些属性表示为特征的首选方式？一周中的哪一天都一样？感谢

1热度

1回答

熊猫的二维装仓

因此，我有两组功能，我希望装箱（分类），然后组合以创建新功能。这与将地图上的坐标分类成网格无异。问题是功能不是均匀分布的，我想在binning时使用分位数（如pandas.qcut()）在这两个功能/坐标上。有没有比两个功能上的更好的方法，然后连接结果标签？

0热度

1回答

在未知测试集上使用Select-K-best

我在sklearn中训练了一个逻辑回归分类器。我的基本特征文件有65个特征，现在我通过考虑二次组合（使用PolynomialFeatures（））将它们外推到1000。然后我通过Select-K-Best（）方法将它们还原为100。但是，一旦我训练了我的模型并获得了新的test_file，它将只具有65个基本特征，但我的模型预计会有100个特征。所以，我怎么能应用在我的测试集选择-K-最佳（）