我想使用Lucene.NET来存储和查询术语向量。但是,我不希望从文档创建术语向量。相反,我希望能够直接编写和更新术语向量,而不需要术语/标记的位置或偏移量。是否可以直接修改术语频率/术语向量?
的解决方法是从术语向量
foo: 3; bar: 1
生成从术语载体,即文本生成文本
foo, foo, foo, bar
和让Lucene索引该文本。如果我想更新吧期限频率2
,我能得到存储的文本(或从旧项向量生成它,如果我不保存它),将其更改为
foo, foo, foo, bar, bar
并更新索引中的相关文档。
这对于这样一个简单的任务来说相当昂贵。很明显,这不是用例,Lucene是为了用来构建的。尽管如此,我还是希望能够使用Lucene的强大功能来查询等。
有没有办法直接为文档编写术语向量,或者您是否有其他好的想法?
嗨,我有同样的问题。你有没有找到解决方案? – eroy4u
@ eroy4u:不是,看看我的回答如下... – Marc
对于Elasticsearch同样的问题 - 我认为这个功能会非常有用。 –