2014-03-31 30 views
3

我可以访问我感兴趣的文本语料库上的单词向量。现在,我面临的问题是这些载体是区分大小写的,即例如“他”不同于“他”与“HIM”不同。word2vec:以不区分大小写的方式查找类似的单词

我想找到最类似于单词“他”的单词是不区分大小写的。我使用了与google word2vec软件包捆绑在一起的distance.c程序。这是我遇到问题的地方。

我是否应该将参数“Him him HIM”传递给distance.c可执行文件。这将返回关闭的单词发送到3个单词。

或者我应该用3个参数(“他”,“他”和“HIM”)分别运行distance.c程序,然后以合理的方式将这些列表放在一起,以得到最相似的话?请建议。

回答

0

如果您希望以不区分大小写的方式查找类似的单词,则应将所有单词向量转换为小写或大写,然后运行编译版本distance.c

使用标准shell工具很容易。

例如,如果您的原始数据位于名为input.txt的文件中,以下内容适用于大多数类似Unix的shell。

tr '[:upper:]' '[:lower:]' <input.txt> output.txt 
+1

好吧,那本来很容易。问题是我只能访问从一个非常大的数据集生成的二进制字向量。 – suzee

+0

@suzee,你的二进制单词向量如何格式化?他们只是代表特定单词是否发生的位? – merlin2011

+0

嗨,Merlin,对于最后的评论我感到抱歉。我的意思是我有一个二进制文件(.bin)的单词向量。 – suzee

0

您可以将二进制格式转换为文本,然后按照您认为合适的方式进行操作。

相关问题