2016-11-18 24 views
0

我有一个使用给定输入训练数据向量集进行训练的分类器。训练数据中缺少值为numpy.Nan值和使用填充填充缺失值的训练数据。在输入向量中传递一个NAN以进行预测

但是,在我的预测输入向量的情况下,如何通过输入中的值缺失?我应该通过价值为南?重要的是在这方面发挥作用吗?

如果我必须手动填写数值,我该如何填写这种情况下的值,以便根据现有数据计算平均值/中值/频率。

注意:我正在使用sklearn。

+0

过程(即impute值)您的输入,就像您处理您的tain集合一样。 – MMF

+0

假设我有一个单一的输入矢量,并且该输入策略如何工作?我如何找到平均值/中位数/频率? –

+0

不,只有当你有一批样品时(至少两个),你才能做到这一点。 如果缺少该示例,请不要使用此示例,或者在训练集上训练回归器以预测缺失的特征值,然后使用此回归因子预测缺失值。 – MMF

回答

0

您不能使用NaN值,因为输入向量例如会与权重矩阵相乘。这些操作的结果需要被定义。

如果输入数据中存在空白,通常会做什么,根据数据的具体类型和结构,用“人造”值填补空白。例如,您可以使用其余训练数据实例中同一列的平均值或中值。

相关问题