word2vec：以不区分大小写的方式查找类似的单词

我可以访问我感兴趣的文本语料库上的单词向量。现在，我面临的问题是这些载体是区分大小写的，即例如“他”不同于“他”与“HIM”不同。word2vec：以不区分大小写的方式查找类似的单词

我想找到最类似于单词“他”的单词是不区分大小写的。我使用了与google word2vec软件包捆绑在一起的distance.c程序。这是我遇到问题的地方。

我是否应该将参数“Him him HIM”传递给distance.c可执行文件。这将返回关闭的单词发送到3个单词。

或者我应该用3个参数（“他”，“他”和“HIM”）分别运行distance.c程序，然后以合理的方式将这些列表放在一起，以得到最相似的话？请建议。

2014-03-31 suzee

如果您希望以不区分大小写的方式查找类似的单词，则应将所有单词向量转换为小写或大写，然后运行编译版本distance.c。

使用标准shell工具很容易。

例如，如果您的原始数据位于名为input.txt的文件中，以下内容适用于大多数类似Unix的shell。

tr '[:upper:]' '[:lower:]' <input.txt> output.txt

2014-04-09 05:53:25 merlin2011

好吧，那本来很容易。问题是我只能访问从一个非常大的数据集生成的二进制字向量。 – suzee

@suzee，你的二进制单词向量如何格式化？他们只是代表特定单词是否发生的位？ – merlin2011

嗨，Merlin，对于最后的评论我感到抱歉。我的意思是我有一个二进制文件（.bin）的单词向量。 – suzee

您可以将二进制格式转换为文本，然后按照您认为合适的方式进行操作。

2014-11-01 11:36:09

回答