2011-06-17 88 views
1

我想计算tf-idf weight。所以,为了找到idf,我需要不同文档的大数据库。然后我做了其他数据库与colums-(单词/计数)。 所以我的问题是“我在哪里可以找到”idf“(或计数)系数的最后一个数据库词”? 许多搜索引擎正在使用这个数据库,也许有可能在互联网上找到这个数据库的不同语言? 我不想自己做这个分贝。从哪里获得“idf”coef的单词?

回答

2

idf是逆文档频率。换句话说,这个词的频率在分母中。所以你想要的是词频表。 Wiktionary:Frequency lists应该让你开始。请记住,这些列表将单词的折射形式视为同一个词,例如be,is,am,are,...