我的数据由连续和分类特征组合而成。下面是我的数据看起来像CSV格式(认为它是由在不同的城市工作专卖店超级连锁店收集的数据)如何对sklearn中的连续属性进行离散化?
city,avg_income_in_city,population,square_feet_of_store_area, store_type ,avg_revenue
NY ,54504 , 3506908 ,3006 ,INDOOR , 8000091
CH ,44504 , 2505901 ,4098 ,INDOOR , 4000091
HS ,50134 , 3206911 ,1800 ,KIOSK , 7004567
NY ,54504 , 3506908 ,1000 ,KIOSK , 2000091
她可以看到avg_income_in_city,square_feet_of_store_area和avg_revenue一个小片段是连续的值,其中城市,store_type等是分类类(并且我没有在这里展示几个以保持数据的简洁性)。
我希望对数据进行建模以预测收入。问题是如何使用sklearn'Discretizate'连续值? sklearn提供任何“现成”类/方法来实现连续值的离散化吗? (就像我们在Orange例如Orange.Preprocessor_discretize(数据,方法= orange.EntropyDiscretization())
谢谢!
我不明白为什么你应该斌/离散化连续变量。这是扔掉信息。 –
我想这取决于你正在使用的数据的类型以及你的管道中有多好的后续机制利用这些信息。有时候,矢量量化或一般的聚类作为预处理可以使表示更加稳定。 – eickenberg