2012-04-17 62 views
1

我正在使用OpenSearchServer(社区版)v1.2.4-rc3-stable-rev 1474- build 802.我爬行C#和C++编程网站。现在,当我搜索C#或C++时,软件会去除#,+等特殊字符。结果并不准确哪个软件返回。我如何在OpenSearchServer/Lucene中处理像(#)这样的特殊字符?任何人都可以建议我的想法?在此先感谢如何在OpenSearchServer/Lucene中处理特殊字符(如#)?

回答

1

您需要更改您的索引策略以使用自定义或半自定义标记器,该标记器可保留表示C#和C++代码术语所需的特殊字符。您将在索引期间和搜索期间使用这个标记器。

副手,我想看看org.apache.lucene.analysis.standardorg.apache.lucene.wikipedia.analysis得到一些想法如何构造标记生成器(使用一个标记(词法分析器)生成器(如JFlex等)可能被调用而不是手动编码令牌生成器)。