1
我不是来自统计学,但是通过做一个工作与机器学习和NN我看到缩放数据可以产生很多伤害。从我所了解的情况来看,在列车测试之前缩放数据并不是一个好的选择,但请看看这个例子,当在列车测试分离之后完成缩放时。sklearn Standardscaler()可以影响测试矩阵的结果
import numpy as np
from sklearn.preprocessing import StandardScaler
train_matrix = np.array([[1,2,3,4,5]]).T
test_matrix = np.array([[1]]).T
e =StandardScaler()
train_matrix = e.fit_transform(train_matrix)
test_matrix = e.fit_transform(test_matrix)
print(train_matrix)
print(test_matrix)
[out]:
[[-1.41421356] #train data
[-0.70710678]
[ 0. ]
[ 0.70710678]
[ 1.41421356]]
[[ 0.]] #test data
StandardScaler类会做每个数据集的两个不同的缩放处理,并且可能会损害您NN结果的错误是:
列车矩阵1 -1.41421356,而在测试矩阵1 0现在想象你用训练权重的测试数据做一个预测模型。对于1,您会收到完全不同的结果。如何克服这一点?
感谢仪。你已经第二次帮助我了。祝一切顺利! – Makaroniiii