0
据我所知,Lucene贡献目录中的演示IndexFiles示例将创建从文档术语到相应文档路径名的倒排索引。将术语频率添加到lucene索引
我想知道是否有方法将每个文档中的术语频率添加到索引中。
换句话说(如果我没有理解这个权利),原来的映射: 名词 - >(文件路径名) 术语列表 - >(文件路径名,词频该文件中)
名单有没有办法做到这一点?目前,我正在通过在java中打开每个文档路径名来计算术语频率,然后计算术语。由于可能有数百个文档需要打开和处理,因此存在一些巨大的开销。