我有我测量属性的对象的集合。对于每个对象,我获得一个描述该对象的实数向量。矢量总是不完整的:通常从完整矢量的开始或结束处缺少数字,有时在中间缺少信息。因此,每个对象都会产生不同长度的向量。我还测量了每个物体的质量,现在我想将我测量的物体的矢量与质量相关联。机器学习与输入的可变大小的实矢量?
这是在我的领域(天体物理学)从实数,例如该载体对提取共同的特点取平均值或一些线性组合的值;然后使用这些提取的特征来推断使用例如神经网络的质量(或其他)。然而,最近显示,矢量元素的非常复杂的组合导致质量好得多的模型。
还有在这个模型的残差,然而,即使是在模拟数据时。据推测,有一个更好的方法来操纵这些可变长度的向量,以获得更好的模型。
我想知道是否有可能做的机器都不同长度的实值输入向量学习。对于文本挖掘我知道有些东西就像书包一样,但不清楚这种方法如何在实值向量上工作。我知道经常性神经网络对可变长度的句子有效,但我不确定它们是否适用于实值向量。我也考虑过填补缺失的数据;然而,有时由于物理原因而缺失,即在某个地方的价值不可能存在,因此推测它会违反形势的实际性。
有没有这方面的任何研究吗?
我是否正确地认为你不知道*哪些*特征是在你的特征向量中的位置X?如果您知道,您没有处理经典意义上不同长度的特征向量,但可能会在特征向量中包含大量未知(“NA”)信息。如果您不知道:是否订购了您的功能(类似于时间序列测量),或者您是否可以“洗牌”他们? – geekoverdose
@geekoverdose有趣的问题!我测量的是一个物理事物,有时信息只是简单地丢失(“NA”),但其他时间信息是非物理的 - 它不可能存在,就像一个站立的人没有膝盖一样---所以我不确定这是否是“不适用”材料。这些信息可以被认为是有序的,即可以按照顺序对它们进行标记,但这并不是必须的,并且偶尔难以进行标记。我很乐意听到这个问题的顺序或非顺序解决方案。 – rhombidodecahedron
然后,我可能会认为“缺失的属性”本身就是信息(例如二进制/虚拟变量)。您可以将这些信息直接用于某些模型类型的预测任务,但您也可以在例如类似树的模型可以自动形成更均匀的组,例如,其他模型可以预测目标变量。 – geekoverdose