2015-05-29 29 views
0

我是IR新手,我想计算网页的tf-idf。为网页计算tf-idf

对于“tf”部分,我想计算一个网页内容中每个单词的频率。

对于“idf”部分,我想比较多个网页的内容。

是否有工具/ API可以帮助解决这个问题?任何平台都可以。有人可以解释我该如何实现这一目标?

谢谢大家。

回答

0

您需要先使用诸如Lucene之类的工具为一组网页建立索引。这些索引框架会为你创造两件事...首先是一个倒排索引,即一个词语出现的文档列表(类似于一本书的索引,对于每一个重要的词语,一个列表被存储表示这些术语出现在哪些页面中)...这照顾tf部分......第二个是收集统计,其存储全局(而不是每个文档)统计,诸如文档频率(在多少文档中 一个术语出现)等。

然后在检索阶段使用这两个文件返回排名靠前的文档列表。这是Lucene上的一个不错的tutorial,它可以帮助你开始。特别有用的是类的IndexWriterStandardAnalyzer文献IndexSearcher的BM25Similarity