2016-05-23 56 views
1

我有我测量属性的对象的集合。对于每个对象,我获得一个描述该对象的实数向量。矢量总是不完整的:通常从完整矢量的开始或结束处缺少数字,有时在中间缺少信息。因此,每个对象都会产生不同长度的向量。我还测量了每个物体的质量,现在我想将我测量的物体的矢量与质量相关联。机器学习与输入的可变大小的实矢量?

这是在我的领域(天体物理学)从实数,例如该载体对提取共同的特点取平均值或一些线性组合的值;然后使用这些提取的特征来推断使用例如神经网络的质量(或其他)。然而,最近显示,矢量元素的非常复杂的组合导致质量好得多的模型。

还有在这个模型的残差,然而,即使是在模拟数据时。据推测,有一个更好的方法来操纵这些可变长度的向量,以获得更好的模型。

我想知道是否有可能做的机器都不同长度的实值输入向量学习。对于文本挖掘我知道有些东西就像书包一样,但不清楚这种方法如何在实值向量上工作。我知道经常性神经网络对可变长度的句子有效,但我不确定它们是否适用于实值向量。我也考虑过填补缺失的数据;然而,有时由于物理原因而缺失,即在某个地方的价值不可能存在,因此推测它会违反形势的实际性。

有没有这方面的任何研究吗?

+2

我是否正确地认为你不知道*哪些*特征是在你的特征向量中的位置X?如果您知道,您没有处理经典意义上不同长度的特征向量,但可能会在特征向量中包含大量未知(“NA”)信息。如果您不知道:是否订购了您的功能(类似于时间序列测量),或者您是否可以“洗牌”他们? – geekoverdose

+0

@geekoverdose有趣的问题!我测量的是一个物理事物,有时信息只是简单地丢失(“NA”),但其他时间信息是非物理的 - 它不可能存在,就像一个站立的人没有膝盖一样---所以我不确定这是否是“不适用”材料。这些信息可以被认为是有序的,即可以按照顺序对它们进行标记,但这并不是必须的,并且偶尔难以进行标记。我很乐意听到这个问题的顺序或非顺序解决方案。 – rhombidodecahedron

+0

然后,我可能会认为“缺失的属性”本身就是信息(例如二进制/虚拟变量)。您可以将这些信息直接用于某些模型类型的预测任务,但您也可以在例如类似树的模型可以自动形成更均匀的组,例如,其他模型可以预测目标变量。 – geekoverdose

回答

1

回归神经网络(RNNs)能够采取长度为n的可变大小的输入向量和产生的长度为m的可变尺寸的输出向量。

有许多方法可以使RNNs工作。最常见的细胞类型称为长期短期记忆(LSTM)和门控循环单位(GRU)。

您可能需要阅读:

然而,训练RNNs需要大量的训练数据。从中计算固定大小的特征向量可能会更好。但是你永远不知道什么时候你不试试它;-)

+0

我可以生成任意数量的训练数据(我正在模拟工作!),所以我一定会尝试一下。谢谢! – rhombidodecahedron

+0

虽然我仍然有点困惑。我已经阅读了您链接的前两个网站,看起来他们主要用于从他们学习的模型中生成样本。这些体系结构是否也可用于常规神经网络训练的传统回归/分类类型任务? – rhombidodecahedron

+0

是的,RNN可以用于序列标签。通常当你在一个序列中有多个类并且你不知道在哪里分割时,它会被使用,但是我很确定只有一个类可以用于序列。不过,我现在还不知道这个好文件。 –