2011-03-10 44 views
2

Lucene具有很强的增量索引功能。从头开始开发IR系统通常是一件痛苦的事情。 我想知道如果我可以使用低级别的Lucene APIs仅将它用作倒排索引,即用于倒排列表,位置信息,词频,idfs,现场存储等的存储...仅将Lucene用作倒排索引

底线是我想实现我自己的权重和文件评分。我知道Similarity班,但它没有给我想要的灵活性。

回答

1

您当然可以创建自己的查询类和您自己的记分员等。如果您需要全局数据,您可能会遇到的唯一问题。 (例如,在tf/idf中,你需要知道freq和inverse doc freq这个词。)如果你的评分算法需要其他一些交叉文档或者跨期元数据,你可能会遇到麻烦,因为没有我知道存储这个的好方法。

但基本上,只要你的算法模糊了tf/idf或者只对每个文件有效,我认为你应该没问题。