2
我有一个训练数据集和多个测试集(我在集群框架中对实例进行分类,因此测试集的实例是在运行时计算的)。WEKA:问题属性scale
实例属性具有不同的比例(第一个从0变为1,第二个从0变为100)。
我的分类器(逻辑回归和SMO)如何处理它们一次没有整个测试集的事实?
换句话说,如果他们不知道测试集中最大值是什么,他们如何处理不同的规模属性?
感谢
我有一个训练数据集和多个测试集(我在集群框架中对实例进行分类,因此测试集的实例是在运行时计算的)。WEKA:问题属性scale
实例属性具有不同的比例(第一个从0变为1,第二个从0变为100)。
我的分类器(逻辑回归和SMO)如何处理它们一次没有整个测试集的事实?
换句话说,如果他们不知道测试集中最大值是什么,他们如何处理不同的规模属性?
感谢
按照Weka Javadocs,SMO“默认情况下,标准化的所有属性。(请注意,在输出的系数是基于标准化/标准化的数据,而不是原始数据)。”也就是说,你”如果你的训练集没有覆盖每个属性的全部范围,你会得到错误的规范化。这有多糟糕取决于你的数据。
我建议你尝试使用和不使用标准化(使用setFeatureSpaceNormalization(false)
将其关闭)进行训练,并查看最佳效果。