创作卷积神经网络的位置矢量的关系分类

在多个出版物中描述这个问题涉及在CNN使用位置矢量的关系分类，如以下通过Zeng等人：http://www.aclweb.org/anthology/C14-1220 创作卷积神经网络的位置矢量的关系分类

我想在张量流中实现这样一个模型。我的问题如下：

使用随机初始化向量表示位置信息有什么好处吗？举例来说，为什么不用一个热门的矢量编码来表示位置？不建议将单热矢量与密集的单词矢量结合起来吗？
根据单词向量的维度，位置向量应该具有最小维度吗？例如，假设单词向量维数为500，那么对于位置向量来说，维数10是否会太小而不能在模型中有效？是否有一系列已知的位置向量表现良好的维度？
用于编码位置信息的随机初始化向量之间的距离是否重要？

非常感谢您花时间研究这一点！

2017-10-12 ltt

关于问题1，我没有解释为什么组合热点和密集的表示是不好的，但是凭经验看看其他人报告的结果，似乎还是更好地学习位置的嵌入。

约阿夫德堡还注意到可以在他自己NLP Deep Learning book（第96页）：

在“传统”的NLP设置，距离通常是由装仓的距离为几组（即，1，2编码，3，4，5-10， 10+）并且将每个箱与单热矢量相关联。在神经架构中，输入向量不是由二进制指标特征组成的，将单个输入条目分配给距离特征似乎很自然，其中该条目的数值是该距离。

但是，这种方法在实际中并未采用。相反，距离特征的编码类似于其他特征类型：每个bin与一个d维向量相关联，然后将这些距离嵌入向量作为网络中的常规参数训练[dos Santos et al。，2015,2010， Nguyen 和Grishman，2015，Zeng等，2014，Zhu等，2015a]。

也许你可以通过查看引用的论文来找到更多关于嵌入更好的见解。

关于问题2，我会说只要维度足够大，让模型为您想要编码的每个位置学习不同的嵌入，就应该没问题。所以他们在实践中可能会很小。

来源

2018-01-25 14:25:20 Tobias

创作卷积神经网络的位置矢量的关系分类

回答

相关问题