我已经开始使用Lucene.NET,我写了一个简单的测试方法来对源代码文件进行索引和搜索。问题在于标准分析器/标记器将整个驼峰案例源代码标识符名称视为单个标记。Lucene.NET:骆驼案例标记器?
我正在寻找一种方式来对待像MaxWidth
骆驼个案标识分为三个令牌:maxwidth
,max
和width
。我找过这样一个标记器,但我找不到它。在写我自己的之前:这方面有什么东西吗?或者有没有比从零开始编写标记器更好的方法?
更新:最后我决定把我的手弄脏,我自己写了一个CamelCaseTokenFilter
。我会在博客上写一篇关于它的文章,我会更新这个问题。
是的,我已经注意到了这一点,尽管它并没有真正做我正在寻找的东西。最后我自己写了CamelCaseTokenFilter。但我会接受你的答案。 – 2010-09-11 06:13:19