Word中的线性激活函数向量

在word2vec paper中，它们使用线性激活函数。我的理由可能是他们提供了足够的训练数据来学习单词嵌入，这样非线性激活函数就没有必要了，我正确吗？Word中的线性激活函数向量

此外，如果我们在隐藏层中使用非线性激活函数，那么我认为结果应该更好。那么为什么谷歌使用线性激活功能的情况下，单词向量？

来源

2017-07-15 Azad

提供文献的参考，以加快响应速度。 –

在这里他们提到关于那里模型的论文https://arxiv.org/pdf/1301.3781.pdf的链接。 – Azad

在我看来，你的困惑大部分来自于认为他们的模型完全是线性。事实并非如此，因为最终总会有一个softmax层。线性是指在此之前的一切，这与NNLM不同。

请记住，所有字表示方法的主要思想是预测邻近字，即由中心词最大化上下文的总条件概率（反之亦然）：

所以目标函数必然以最终的softmax层（或类似的）结束。我鼓励你阅读this post了解更多细节，它很短，写得很好。

你说得对，神经网络越是非线性，其获得的灵活性就越高，因此越接近目标分布。在这种情况下，他们认为额外的灵活性并没有得到回报：最终，他们获得了非常好的结果，速度更快，从而可以将这种方法扩展到庞大的语料库，从而获得更好的结果。注意：线性回归根本不需要训练以找到解答，但有一个接近的公式（尽管存在大型矩阵存在技术困难）。

来源

2017-09-20 18:45:39 Maxim

Word中的线性激活函数向量

回答

相关问题