2015-10-16 29 views
0

我的任务是从文本中提取关键字。我做的是以下内容:Idf得分为一个未知的单词?

我正在使用tf-idf“算法”。对于idf部分,我正在爬行维基百科文章并提取名词短语(opennlp)并将它们存储在数据库中。

所以当我分析一个文本我只需要计算tf部分并从数据库中获取idf部分。

迄今为止的结果非常有吸引力。我唯一的问题是 - >因为我要分析的文本与wikipedia语料库不同,所以有些词有很高的tf值,但没有idf值(在维基语料库中找不到它)。但是有时候这些词语仍然非常重要(例如,这可能是一个未在维基百科上列出的新公司)。

如果在db(语料库)中没有找到idf值,我该如何处理? (IDF平均大概是没有这么一个好主意)

回答

0

如何计算IDF?

如果您有类似IDF = log_e(# of documents/# of documents with term)你可以做log_e(# of documents +1/1)。即将文档作为语料库中的新文档对待。

相关问题