3
我想用tf-idf来计算术语频率。我已经草拟了一个方程式,您应该在左侧获得tf-idf值。它是否正确?Tf-idf:这种方法是否正确?
TF-IDF为DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT)/number-of-words(DOCUMENT) * log10 (documents(ALL)/(1 + documents(WORD, ALL)))
occurrences(WORD,DOCUMENT)
:中WORD
出现在数DOCUMENT
number-of-words(DOCUMENT)
:词的数量DOCUMENT
documents(ALL)
:文件在数据库 数
documents(WORD, ALL)
:数据库中包含的文档数量WORD
如果你能帮助我,那将是非常好的。非常感谢您提前!
你能帮助这个http://stackoverflow.com/questions/28642930/how-can-i-compute-mtf-idf? – 2015-02-21 06:36:47