2014-11-23 35 views
0

我有一个文档列表,我根据用户在Apache SOLR上的查询索引这些文档。我想通过使用相关索引文档中的关键字来提取一些新闻文章,并将其与索引文档一起显示给用户。是否有任何算法或程序可以从文档中提取相关关键字并将其用于提取新闻?从维基百科文章中提取Java关键字

+0

你将什么归类为“相关关键字”? – MatsLindh 2014-11-23 23:47:29

+0

相关关键词是指根据用户查询与用户相关的关键词。如果我将这个查询命名为“足球比赛”,那么在这种情况下足球就是我的一个相关关键词。 – SplinterCell 2014-11-25 01:01:08

回答

0

您应该研究TF-IDF关键字提取。大约两年前,我使用英文Wiki和一个简单的Python Script做了一个类似的过程。在继续操作之前,您需要回答几个问题。您可以使用TF-IDF关键词提取here

  • 你只关心单个关键字一个整洁的小书面记录,否则将评估的短语,也和到什么长度?
  • 你会对传入的数据进行任何自然语言处理,比如标记和词干?
  • 您是否将关键字限制为某些文章类型?某些类别的文章可以有他们自己的TF-IDF分数,所以你可能想要试验你所需要的。
+0

我想要在用户查询中提供关键字和短语。但是这些应该是总结整个查询的相关关键字,而不是其他停用词或不相关的东西。是的,我将使用Apache SOLR处理这些查询。 – SplinterCell 2014-11-26 21:19:47