2016-07-13 209 views

回答

0

你的问题有点含糊,但我会努力仍然...

如果我理解你正确地,那么你想要做的(这取决于你想花的功夫)什么是以下几点:

  1. 将关键字扩展到您将用于在主题中搜索的同义词列表(您可以使用WordNet进行此操作)。

  2. 使用搭配(n-gram模型)将关键字扩展到可能的二元和三元组,并在文本中搜索这些关键字。

  3. 根据您可能还需要创建一个分类数据的可用性(例如,使用好老的SVM或CRF)映射关键字列表为主题(其中主题是类)。

  4. 假设您每个主题有多个文档,您可能还想创建一个每个主题最常见的单词列表(排除停用词)。

多数功能通过NLTK,熊猫等,为Python和OpenNLP,LIBSVM,LingPipe在Java是可用的。

相关问题