1

word2vec paper中,它们使用线性激活函数。我的理由可能是他们提供了足够的训练数据来学习单词嵌入,这样非线性激活函数就没有必要了,我正确吗?Word中的线性激活函数向量

此外,如果我们在隐藏层中使用非线性激活函数,那么我认为结果应该更好。那么为什么谷歌使用线性激活功能的情况下,单词向量?

+0

提供文献的参考,以加快响应速度。 –

+0

在这里他们提到关于那里模型的论文https://arxiv.org/pdf/1301.3781.pdf的链接。 – Azad

回答

1

在我看来,你的困惑大部分来自于认为他们的模型完全是线性。事实并非如此,因为最终总会有一个softmax层。线性是指在此之前的一切,这与NNLM不同。

请记住,所有字表示方法的主要思想是预测邻近字,即由中心词最大化上下文的总条件概率(反之亦然):

probability model

所以目标函数必然以最终的softmax层(或类似的)结束。我鼓励你阅读this post了解更多细节,它很短,写得很好。

你说得对,神经网络越是非线性,其获得的灵活性就越高,因此越接近目标分布。在这种情况下,他们认为额外的灵活性并没有得到回报:最终,他们获得了非常好的结果,速度更快,从而可以将这种方法扩展到庞大的语料库,从而获得更好的结果。注意:线性回归根本不需要训练以找到解答,但有一个接近的公式(尽管存在大型矩阵存在技术困难)。