我想删除不需要的词,并使用词干,最后创建带状疱疹。然而,在取消停用词之后,它给了我一个“_”代替停用词的带状疱疹。 我试图使用PatternReplaceFactory替换_但它不工作。我有如下字段类型:solr词干,停止词和带状疱疹没有给出预期的输出
<fieldType name="common_shingle" class="solr.TextField">
<analyzer type="index">
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.PorterStemFilterFactory"/>
<filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
<filter class="solr.PatternReplaceFilterFactory" pattern=".*_.*" replacement=""/>
<filter class="solr.ShingleFilterFactory" outputUnigrams="false" minShingleSize="3" maxShingleSize="3"/>
</analyzer>
</fieldType>
当我分析了“A棕色狐狸跳过迅速通过懒狗”。它给了我下面的结果:
- _棕色狐狸
- 棕色狐狸quickli
- 狐狸quickli跳
- quickli跳_
- 跳_
- _落子
- _落子狗
我该如何移除_来自小屋标记。另外,是否有一种方法只能从停用词创建带状疱疹?
请参阅http://stackoverflow.com/questions/28459949/solr-stop-words-replaced-with-symbol以及 – Marco