2009-08-22 87 views
3

我想用tf-idf来计算术语频率。我已经草拟了一个方程式,您应该在左侧获得tf-idf值。它是否正确?Tf-idf:这种方法是否正确?

TF-IDF为DOCUMENT

tf-idf(WORD) = occurrences(WORD,DOCUMENT)/number-of-words(DOCUMENT) * log10 (documents(ALL)/(1 + documents(WORD, ALL))) 
  • occurrences(WORD,DOCUMENT):中WORD出现在数DOCUMENT
  • number-of-words(DOCUMENT):词的数量DOCUMENT
  • documents(ALL):文件在数据库
  • documents(WORD, ALL):数据库中包含的文档数量WORD

如果你能帮助我,那将是非常好的。非常感谢您提前!

+0

你能帮助这个http://stackoverflow.com/questions/28642930/how-can-i-compute-mtf-idf? – 2015-02-21 06:36:47

回答

1

根据维基百科文章的说法,这是正确的,您可能想要更改为1 +文档(WORD,ALL),而不是像维基百科文章中的文档(WORD,ALL)。

TF-IDF on wikipedia

+0

谢谢!现在应该是完全正确的!?我阅读了德文维基百科的文章,其中没有提到+1。所以,感谢您提供的好建议。 – caw 2009-08-22 12:04:57