2011-11-10 43 views
0

据我所知,Lucene贡献目录中的演示IndexFiles示例将创建从文档术语到相应文档路径名的倒排索引。将术语频率添加到lucene索引

我想知道是否有方法将每个文档中的术语频率添加到索引中。

换句话说(如果我没有理解这个权利),原来的映射: 名词 - >(文件路径名) 术语列表 - >(文件路径名,词频该文件中)

名单

有没有办法做到这一点?目前,我正在通过在java中打开每个文档路径名来计算术语频率,然后计算术语。由于可能有数百个文档需要打开和处理,因此存在一些巨大的开销。

回答

0

Lucene通常存储术语频率,也可以存储术语偏移和位置。频率信息存储在扩展名为“frq”的文件中,因此如果您的索引文件夹中包含该文件,则会存储术语频率。

你没有说你为什么在意,或者你想要怎么处理这些频率。通常Lucene会使用它们为您的查询计算相关性分数。如果你想要原始频率,这个问题将讨论如何检索它们:Get term frequencies in Lucene