2017-06-21 30 views
-2

这里有个简短的问题。我想知道什么时候和什么情况使用单热编码,什么时候应该使用虚拟变量。何时使用单热编码以及何时使用虚拟变量?

我打算用绝对的和数值变量做聚类分析。我在一个论坛上读到,我可以尝试使用单热编码对分类变量进行编码。但我想知道是什么使它与虚拟变量不同。

谢谢

+0

在我看来它同样的事情。独热编码变量是虚拟变量[相同](https://www.reddit.com/r/MLQuestions/comments/5bhmvz/whats_the_difference_between_one_hot_encoding_and/)。 –

回答

0

大多数聚类算法将根据距离全哑编码。

任何这样的编码是一个黑客,使categoricial数据看起来好像是数字,但这只是推迟造成的问题:如何规范,体重,去相关,并结合功能。

对于大多数聚类算法,它使一个巨大的差异是否笨蛋编码为0,1或0,100000或0,0.000001。那么你应该使用哪一个?对此没有客观的数学答案,并且造成严重问题。

0

主要区别在于虚拟编码通常会删除其中一列。例如。具有3个级别的变量将获得2个虚拟变量和3个单热编码变量。这是为了确保你没有多重共线性。编码一个热有时也被称为

相关问题