2015-09-05 70 views
1

我想知道如何使用WordNet从文本文档中提取概念。早先我已经使用袋子文字方法来测量文本文档之间的相似性,但是我希望使用文本的语义信息,因此想要从文档中提取概念。我了解Wordnet提供的包含给定单词的同义词的系统网络。但是我想要实现的是如何使用这些信息来定义文本数据中的一个概念。我想知道是否需要在使用sysnet之前分别手动定义概念列表,然后将这些概念与sysnet进行比较。使用Wordnet抽取概念

任何建议或链接表示赞赏。

+0

我不会unerstand,你想要做“关键字提取”?概念是什么意思?对不起,如果我的问题听起来很傻。 – amirouche

回答

0

我想你会发现有太多的概念来列举他们所有的人都是实际的。相反,您应该考虑使用预先存在的知识来源,例如Wikidata,Wikipedia,Freebase,Tweets的内容,整个网络或其他来源,作为构建概念的基础。您可能会发现聚类算法对定义这些算法很有用。就同​​义词而言......与概念相关的词语可能不一定是同义词(例如,爱与恨都可能与关于对另一个人的情感强度的相同概念有关),某些词可能属于多个概念(例如婚礼可能在爱情和婚姻概念中),所以我建议从synset到概念的联系不是严格的1:1。