后,我可以说,斯芬克斯是明显的赢家。
考虑使用http://sphinxsearch.com/代替lucene。它被craigslist等使用。
他们有一个功能叫做形态预处理器:
# a list of morphology preprocessors to apply
# optional, default is empty
#
# builtin preprocessors are 'none', 'stem_en', 'stem_ru', 'stem_enru',
# 'soundex', and 'metaphone'; additional preprocessors available from
# libstemmer are 'libstemmer_XXX', where XXX is algorithm code
# (see libstemmer_c/libstemmer/modules.txt)
#
# morphology = stem_en, stem_ru, soundex
# morphology = libstemmer_german
# morphology = libstemmer_sv
morphology = none
有很多可用的词干,正如你所看到的,德国是其中之一。
UPDATE:
拟订为什么我觉得那个狮身人面像一直是我明显的赢家。
- 速度:狮身人面像是快速愚蠢。索引编制和服务搜索查询。
- 相关性:虽然很难量化,但我觉得我能够得到更多的相关结果与狮身人面像相比,我的lucene实现。
- 对文件系统的依赖:对于lucene,我无法打破对文件系统的依赖。虽然他们是变通方法,比如创建一个RAM磁盘,但我觉得选择sphinx的“仅在内存中运行”选项会更容易。这对具有多个网络服务器的网站有影响,向索引添加动态数据,重新索引等。
是的,这些仅仅是意见的观点。然而,他们是来自尝试这两种系统的人的意见。
希望帮助...
我认为这是一个关于lucene的问题,而不是替代品 –
是的,因为它是所有其他的反应混乱。 – Homer6
'我可以说狮身人面像是一个明显的赢家.'请在公共场合详细分享您的意见/经验,说明它为什么是赢家,这样人们可以轻松地决定选择文本搜索引擎 –