Idf得分为一个未知的单词？

我的任务是从文本中提取关键字。我做的是以下内容：Idf得分为一个未知的单词？

我正在使用tf-idf“算法”。对于idf部分，我正在爬行维基百科文章并提取名词短语（opennlp）并将它们存储在数据库中。

所以当我分析一个文本我只需要计算tf部分并从数据库中获取idf部分。

迄今为止的结果非常有吸引力。我唯一的问题是 - >因为我要分析的文本与wikipedia语料库不同，所以有些词有很高的tf值，但没有idf值（在维基语料库中找不到它）。但是有时候这些词语仍然非常重要（例如，这可能是一个未在维基百科上列出的新公司）。

如果在db（语料库）中没有找到idf值，我该如何处理？（IDF平均大概是没有这么一个好主意）

如何计算IDF？

如果您有类似IDF = log_e(# of documents/# of documents with term)你可以做log_e(# of documents +1/1)。即将文档作为语料库中的新文档对待。

2015-11-15 13:20:44 jksnw

回答