2017-10-12 30 views
2

在多个出版物中描述这个问题涉及在CNN使用位置矢量的关系分类,如以下通过Zeng等人:http://www.aclweb.org/anthology/C14-1220创作卷积神经网络的位置矢量的关系分类

我想在张量流中实现这样一个模型。我的问题如下:

  1. 使用随机初始化向量表示位置信息有什么好处吗?举例来说,为什么不用一个热门的矢量编码来表示位置?不建议将单热矢量与密集的单词矢量结合起来吗?

  2. 根据单词向量的维度,位置向量应该具有最小维度吗?例如,假设单词向量维数为500,那么对于位置向量来说,维数10是否会太小而不能在模型中有效?是否有一系列已知的位置向量表现良好的维度?

  3. 用于编码位置信息的随机初始化向量之间的距离是否重要?

非常感谢您花时间研究这一点!

回答

1

关于问题1,我没有解释为什么组合热点和密集的表示是不好的,但是凭经验看看其他人报告的结果,似乎还是更好地学习位置的嵌入。

约阿夫德堡还注意到可以在他自己NLP Deep Learning book(第96页):

在“传统”的NLP设置, 距离通常是由装仓的距离为几组(即,1,2编码,3,4,5-10, 10+)并且将每个箱与单热矢量相关联。在神经架构中,输入向量不是由二进制指标特征组成的,将单个输入 条目分配给距离特征似乎很自然,其中该条目的数值是该距离。

但是,这种方法在实际中并未采用。相反,距离特征的编码类似于其他特征类型:每个bin与一个d维向量相关联,然后将这些距离嵌入向量作为网络中的常规参数训练[dos Santos et al。,2015,2010, Nguyen 和Grishman,2015,Zeng等,2014,Zhu等,2015a]。

也许你可以通过查看引用的论文来找到更多关于嵌入更好的见解。

关于问题2,我会说只要维度足够大,让模型为您想要编码的每个位置学习不同的嵌入,就应该没问题。所以他们在实践中可能会很小。