一般人想用的话做法袋获得从文本功能,计数的单词,并计算不同的措施,例如TF-IDF值,如:How to include words as numerical feature in classification特征提取
但是我的问题是不同的,我想从一个单词中提取一个特征向量。例如我想知道土豆和薯条在矢量空间中彼此接近,因为它们都是由土豆制成的。我想知道,牛奶和奶油也是密切,热和温暖,石头和坚硬等。
这个问题叫什么?我可以通过查看大量文档来了解单词的相似性和特征吗?
我不会用英文进行实施,所以我不能使用数据库。
您的标题有误导性。你想从大语料库中提取单词之间的_relations_(或者说,_concepts_),而不是单个单词中的特征。关于这个问题的名称,我称之为_自动创建一个来自非结构化文本的本体。 – jogojapan 2013-02-13 01:15:24
矢量嵌入单词如word2vec,glove或fastText? – user 2016-08-28 13:31:23