我试图理解word2vec(单词嵌入)体系结构。但是,我对此有疑问。关于单词嵌入的问题(word2vec)
首先,为什么word2vec模型是对数线性模型?因为它在输出层使用了一个软件最大值?
秒,为什么word2vec删除隐藏层?仅仅因为计算复杂性?
三,为什么word2vec不使用激活功能?比较NNLM(神经网络语言模型)。
我试图理解word2vec(单词嵌入)体系结构。但是,我对此有疑问。关于单词嵌入的问题(word2vec)
首先,为什么word2vec模型是对数线性模型?因为它在输出层使用了一个软件最大值?
秒,为什么word2vec删除隐藏层?仅仅因为计算复杂性?
三,为什么word2vec不使用激活功能?比较NNLM(神经网络语言模型)。
首先,为什么word2vec模型是对数线性模型?因为它在输出层使用了一个软件最大值?
确切地说,softmax是一个对数线性分类模型。其目的是获得输出值,可以认为是后验概率分布
第二,为什么word2vec删除隐藏层?仅仅因为 计算复杂? 三,为什么word2ved不使用激活功能?比较 NNLM(神经网络语言模型)。
我认为你的第二个和第三个问题是关联的,因为额外的隐藏层和激活函数会使模型比必要的更加复杂。请注意,尽管未明确阐述激活,但我们可以将其视为线性分类函数。看起来,word2vec模型试图建模的依赖关系可以通过输入词之间的线性关系来实现。
添加非线性激活函数允许神经网络映射更复杂的函数,这又可能导致将输入拟合到更复杂的东西上,从而不会保留word2vec寻求的依赖关系。
thx: - >!我非常了解你想要的答案。 –