0
我有一个包含二进制数据(0,1)和不同单位的数字数据的数据集。如果我想应用一些机器学习技术对我的数据进行分类(可能是自动编码器或层次聚类),我应该对数据进行标准化还是标准化?在自动编码器,病房层次聚类等之前,标准化/标准化数据(二进制+数字)?
谢谢!
我有一个包含二进制数据(0,1)和不同单位的数字数据的数据集。如果我想应用一些机器学习技术对我的数据进行分类(可能是自动编码器或层次聚类),我应该对数据进行标准化还是标准化?在自动编码器,病房层次聚类等之前,标准化/标准化数据(二进制+数字)?
谢谢!
这取决于。
对于神经网络,您可能想要将连续变量标准化为数字原因。但这取决于你的平台。考虑Googles TPU:它们的工作精度为1个字节,因此您希望相关输入域以最佳方式使用此有限范围。
对于像聚类这样的基于距离的方法,预处理数据是至关重要的,但很困难。标准化总是正确的做法是错误的。但是应用一些规范化是相当普遍的。但是你需要一个领域专家来找到最佳的标准化。