3
我正在制作机器学习模型的功能。例如,一个类别变量'week'
范围1-7。当使用单热编码时,将week = 1
编码为1,000,000,week = 2
为0,100,000 ...。但是我也可以使用虚拟变量和单热编码。一个虚拟变量'week_v'
,并以这种方式,我必须设置 hidden variable
这意味着基础变量,并设有week_v = 1
100000,week_v = 2
是010000 ......和 不会出现week_v = 7
。那么什么是它们之间的区别?我使用逻辑模型,然后我会尝试gbdt。虚拟变量和单热编码有什么区别?
实际上没有什么区别。单热编码是您为创建虚拟变量所做的事情。选择其中之一作为基本变量对避免变量之间的完美多重共线性是必要的。 – ayhan
您可能有兴趣检查[this](https://stats.stackexchange.com/q/224051/99338)了解自由度如何根据您选择的方法而改变。 –