1
我正在使用Lucene索引我的文档。就我而言,每个文档都很小,但数量很大(〜2GB)。在每个文件中,都有许多重复的词语或术语。我想知道,如果这是我使用Lucene做索引的正确方法,或者在索引之前应该对文档做什么预处理。使用Lucene索引时处理重复的好方法?
以下是几个我的文档的例子(每列是一个字段,第一行是字段名,并从第二行开始,每行是一个文档):
ID category track keywords
id1 cat1 track1 mode=heat treatment;repeat=true;Note=This is an apple
id2 cat1 track2 mode=cold treatment;repeat=true;Note=This is an orange
我要索引所有文档,在3个字段(类别,曲目和关键字)上执行搜索并返回唯一的id1。
如果我直接索引这个,重复条件会影响搜索性能吗?你有一个好主意,我应该如何做索引和搜索?提前致谢。
+1先尝试索引所有内容,然后再优化。 2GB不是那么多的数据,而且Lucene的速度很快 – bajafresh4life 2010-07-12 13:37:14
+1和我第二次bajafresh4life的评论 – 2010-07-12 15:25:18