我正在尝试配置Lucene/Solr以正确索引来自新闻文章的单词。由于目前是“开箱即用”使用Solr 3.4 WordDelimitedFilterFactory指标: 她 是 她在Solr中用撇号的单词进行适当的单词拆分
,但她会在“她”会成为她,LL,她和外壳。我绝对不希望这匹配“壳”。这不是预期的词。
目前我的文字会突破WhitespaceTokenizerFactory,然后StopFilterFactory,然后WodDelimiterFilterFactory设置为: generateWordParts = “1” generateNumberParts = “1” catenateWords = “1” catenateNumbers = “1” catenateAll = “0” splitOnCaseChange = “0” splitOnNumerics = “0” preserveOriginal = “1” 类型= “specialtypes.txt”
我试图说撇号被认为是在specialtypes.txt字母字符说: ' => ALPHA
但随后她变成了一个词,小马和公司也是如此,这不是我想要的。
任何想法?
在这种情况下你期望什么:斯嘉丽奥哈拉? – notdang
我想要虫子来bug和阿诺德成为阿诺德(英文占有欲),但我想她会成为她而不是壳 – Uberbug
对不起@notdang我误读了。我希望Scarlet O'Hara成为完美世界的Ohara – Uberbug