tensorflow word2vec：参数和预处理

我使用的word2vec_basic从https://github.com/tensorflow/tensorflow/blob/r1.2/tensorflow/examples/tutorials/word2vec/word2vec_basic.py，我有几个（一般）问题。tensorflow word2vec：参数和预处理

如何确定num_steps？在这个例子中它被设置为100001.

是一个skip_window是5还是应该更大（10,25）？

此外，是否应将停用词和标点符号从训练数据集中删除，并且是否应将所有单词转换为小写？

谢谢。

来源

2017-06-23 daria

一般更多num_steps，更好的模型是。您可以从num_steps的一个值开始，并将其用作针对不同值的基准。您可以绘制loss与num_steps，并查看您的损失是否在参数num_steps的某个阈值后真正下降。

选择skip_window取决于您选择的数据集类型。如果窗口大小为5可以捕捉单词的上下文，但如果选择了10，则会降低学习模型的质量，反之亦然。

举个例子吧。考虑下面的句子 - “Tensorflow程序员机器学习的伟大框架”。如果窗口大小是2，则字“Tensorflow”的直接受单词“极大”和“框架”载体，但如果窗口大小是5“Tensorflow”可以是直接受两个词的影响 - '为'和'机器学习'。因此，它会拉近两个词的向量。

而且，就停用词而言，我建议删除停用词和标点符号，并将这些词转换为小写，因为它们会将噪音添加到数据集中，并且对上下文词语没有太多重要性。

您可以查看此link，以便更好地理解Google用来训练word2vec模型的数据。

来源

2017-06-24 13:26:19 Harman

@daria我更新了我的答案，根据我的学习，请检查是否有帮助。 – Harman

tensorflow word2vec：参数和预处理

回答

相关问题