2011-02-01 61 views
3

如何从字符串中有效地提取关键字?我的关键字列表是预定义的。例如,在一篇关于米歇尔奥巴马的文章中,也提到了奥巴马,我想提取Michelle ObamaBarack Obama,关键字Michelle Obama获得更高的相关性值(Michelle ObamaBarack Obama都出现在我的关键字列表中)。高效的关键字检测/提取。预定义的一组关键字

检查字符串中每个关键字的出现次数似乎效率不高。我的应用程序是用PHP开发的,但任何语言都可以,如果我可以有效地做到这一点。

我试过OpenCalais,但它没有检测到我的大部分关键字。是否有可能使用Lucene提取关键字?

+0

有没有人有这方面的经验?谢谢? – 2011-02-02 07:05:56

回答

1

apache lucene包将适合你。然而,如果你有标题和段落,你可以过滤出停用词,给予标题中单词更高的排名,然后在段落中匹配它们或它们的表单。你可以参考一些文本摘要文章,以便更好地编程。