2017-06-23 36 views

回答

0

一般更多num_steps,更好的模型是。您可以从num_steps的一个值开始,并将其用作针对不同值的基准。您可以绘制lossnum_steps,并查看您的损失是否在参数num_steps的某个阈值后真正下降。

选择skip_window取决于您选择的数据集类型。如果窗口大小为5可以捕捉单词的上下文,但如果选择了10,则会降低学习模型的质量,反之亦然。

举个例子吧。考虑下面的句子 - “Tensorflow程序员机器学习的伟大框架”。如果窗口大小是2,则字“Tensorflow”的直接受单词“极大”和“框架”载体,但如果窗口大小是5“Tensorflow”可以是直接受两个词的影响 - ''和'机器学习'。因此,它会拉近两个词的向量。

而且,就停用词而言,我建议删除停用词和标点符号,并将这些词转换为小写,因为它们会将噪音添加到数据集中,并且对上下文词语没有太多重要性。

您可以查看此link,以便更好地理解Google用来训练word2vec模型的数据。

+0

@daria我更新了我的答案,根据我的学习,请检查是否有帮助。 – Harman