机器学习与输入的可变大小的实矢量？

我有我测量属性的对象的集合。对于每个对象，我获得一个描述该对象的实数向量。矢量总是不完整的：通常从完整矢量的开始或结束处缺少数字，有时在中间缺少信息。因此，每个对象都会产生不同长度的向量。我还测量了每个物体的质量，现在我想将我测量的物体的矢量与质量相关联。机器学习与输入的可变大小的实矢量？

这是在我的领域（天体物理学）从实数，例如该载体对提取共同的特点取平均值或一些线性组合的值;然后使用这些提取的特征来推断使用例如神经网络的质量（或其他）。然而，最近显示，矢量元素的非常复杂的组合导致质量好得多的模型。

还有在这个模型的残差，然而，即使是在模拟数据时。据推测，有一个更好的方法来操纵这些可变长度的向量，以获得更好的模型。

我想知道是否有可能做的机器都不同长度的实值输入向量学习。对于文本挖掘我知道有些东西就像书包一样，但不清楚这种方法如何在实值向量上工作。我知道经常性神经网络对可变长度的句子有效，但我不确定它们是否适用于实值向量。我也考虑过填补缺失的数据;然而，有时由于物理原因而缺失，即在某个地方的价值不可能存在，因此推测它会违反形势的实际性。

有没有这方面的任何研究吗？

来源

2016-05-23 rhombidodecahedron

我是否正确地认为你不知道*哪些*特征是在你的特征向量中的位置X？如果您知道，您没有处理经典意义上不同长度的特征向量，但可能会在特征向量中包含大量未知（“NA”）信息。如果您不知道：是否订购了您的功能（类似于时间序列测量），或者您是否可以“洗牌”他们？ – geekoverdose

@geekoverdose有趣的问题！我测量的是一个物理事物，有时信息只是简单地丢失（“NA”），但其他时间信息是非物理的 - 它不可能存在，就像一个站立的人没有膝盖一样---所以我不确定这是否是“不适用”材料。这些信息可以被认为是有序的，即可以按照顺序对它们进行标记，但这并不是必须的，并且偶尔难以进行标记。我很乐意听到这个问题的顺序或非顺序解决方案。 – rhombidodecahedron

然后，我可能会认为“缺失的属性”本身就是信息（例如二进制/虚拟变量）。您可以将这些信息直接用于某些模型类型的预测任务，但您也可以在例如类似树的模型可以自动形成更均匀的组，例如，其他模型可以预测目标变量。 – geekoverdose

回归神经网络（RNNs）能够采取长度为n的可变大小的输入向量和产生的长度为m的可变尺寸的输出向量。

有许多方法可以使RNNs工作。最常见的细胞类型称为长期短期记忆（LSTM）和门控循环单位（GRU）。

您可能需要阅读：

The Unreasonable Effectiveness of Recurrent Neural Networks：很高兴得到一个想法是什么RNNs有能力，尤其是性格的预测。它很容易阅读，但不完全符合你的要求。
Understanding LSTM Networks：更多的技术;写得很好
塞普·霍赫里特，于尔根·施米德休：LONG SHORT-TERM MEMORY
RNNs in TensorFlow

然而，训练RNNs需要大量的训练数据。从中计算固定大小的特征向量可能会更好。但是你永远不知道什么时候你不试试它;-)

来源

2016-05-24 08:09:42

我可以生成任意数量的训练数据（我正在模拟工作！），所以我一定会尝试一下。谢谢！ – rhombidodecahedron

虽然我仍然有点困惑。我已经阅读了您链接的前两个网站，看起来他们主要用于从他们学习的模型中生成样本。这些体系结构是否也可用于常规神经网络训练的传统回归/分类类型任务？ – rhombidodecahedron

是的，RNN可以用于序列标签。通常当你在一个序列中有多个类并且你不知道在哪里分割时，它会被使用，但是我很确定只有一个类可以用于序列。不过，我现在还不知道这个好文件。 –

机器学习与输入的可变大小的实矢量？

回答

相关问题