Solr拼写检查查询词修改

我正在使用Solr进行拼写检查。启用了两个DirectSolrSpellChecker & WordBreakSolrSpellChecker。我有以下问题：Solr拼写检查查询词修改

答：当我查询“担心”时。 Solr正在将此术语转换为“worri”并返回相同的结果。如果单词以“y”[“伤害”，“担心”等）结尾，则结尾“y”替换为“i”。

实例查询：

http://localhost:8983/solr/MY_CORE/spell?df=text&spellcheck.q=worry&spellcheck=true&spellcheck.extendedResults=true&spellcheck.onlyMorePopular=true

Solr的结果：

<response> 
<lst name="responseHeader"> 
<int name="status">0</int> 
<int name="QTime">5</int> 
</lst> 
<result name="response" numFound="0" start="0"/> 
<lst name="spellcheck"> 
<lst name="suggestions"> 
<lst name="worri"> 
<int name="numFound">9</int> 
<int name="startOffset">0</int> 
<int name="endOffset">5</int> 
<int name="origFreq">5</int> 
<arr name="suggestion"> 
<lst> 
<str name="word">wo r ri</str> 
<int name="freq">90</int> 
</lst> 
<lst> 
<str name="word">worst</str> 
<int name="freq">12</int> 
</lst> 
<lst> 
<str name="word">wo r r i</str> 
<int name="freq">5246</int> 
</lst> 
<lst> 
<str name="word">work</str> 
<int name="freq">2920</int> 
</lst> 
<lst> 
<str name="word">w o r ri</str> 
<int name="freq">530</int> 
</lst> 
<lst> 
<str name="word">worn</str> 
<int name="freq">81</int> 
</lst> 
<lst> 
<str name="word">w o r r i</str> 
<int name="freq">5246</int> 
</lst> 
<lst> 
<str name="word">wors</str> 
<int name="freq">79</int> 
</lst> 
<lst> 
<str name="word">worm</str> 
<int name="freq">10</int> 
</lst> 
</arr> 
</lst> 
</lst> 
<bool name="correctlySpelled">false</bool> 
</lst> 
</response>

B.而且上述输出具有诸如 “worri”，我无法找到任何的那些词语的solr的场。我也不知道为什么solr返回这样的词，其中的字母被空格分开。

下面是schema文件：

<field name=MY FIELD type="text_en" multiValued="false" indexed="true" stored="true"/>

下面是配置文件：

<!-- a spellchecker built from a field of the main index --> 
     <lst name="spellchecker"> 
      <str name="name">default</str> 
      <str name="field"> MY FIELD </str> 
      <str name="classname">solr.DirectSolrSpellChecker</str> 
      <!-- the spellcheck distance measure used, the default is the internal levenshtein --> 
      <str name="distanceMeasure">internal</str> 
      <!-- minimum accuracy needed to be considered a valid spellcheck suggestion --> 
      <float name="accuracy">0.5</float> 
      <!-- the maximum #edits we consider when enumerating terms: can be 1 or 2 --> 
      <int name="maxEdits">2</int> 
      <!-- the minimum shared prefix when enumerating terms --> 
      <int name="minPrefix">1</int> 
      <!-- maximum number of inspections per result. --> 
      <int name="maxInspections">5</int> 
      <!-- minimum length of a query term to be considered for correction --> 
      <int name="minQueryLength">4</int> 
      <!-- maximum threshold of documents a query term can appear to be considered for correction --> 
      <float name="maxQueryFrequency">0.01</float> 
      <!-- uncomment this to require suggestions to occur in 1% of the documents 
      <float name="thresholdTokenFrequency">.01</float> 
      --> 
     </lst> 

     <!-- a spellchecker that can break or combine words. See "/spell" handler below for usage --> 

     <lst name="spellchecker"> 
     <str name="name">wordbreak</str> 
     <str name="classname">solr.WordBreakSolrSpellChecker</str> 
     <str name="field">MY FIELD</str> 
     <str name="combineWords">false</str> 
     <str name="breakWords">true</str> 
     <int name="maxChanges">10</int> 
     </lst> 

    </searchComponent> 


    <requestHandler name="/spell" class="solr.SearchHandler" startup="lazy"> 
     <lst name="defaults"> 
      <str name="spellcheck.dictionary">default</str> 
      <str name="spellcheck.dictionary">wordbreak</str> 
      <str name="spellcheck">on</str> 
      <str name="spellcheck.extendedResults">true</str> 
      <str name="spellcheck.count">10</str> 
      <str name="spellcheck.alternativeTermCount">5</str> 
      <str name="spellcheck.maxResultsForSuggest">5</str> 
      <str name="spellcheck.collate">false</str> 
      <str name="spellcheck.collateExtendedResults">false</str> 
      <str name="spellcheck.maxCollationTries">10</str> 
      <str name="spellcheck.maxCollations">5</str> 
     </lst> 
     <arr name="last-components"> 
      <str>spellcheck</str> 
     </arr> 
    </requestHandler>

我真的很感激，如果有人能帮助我对此。

在此先感谢！

来源

2017-08-28 user5369925

您喜欢“我们”的“奇怪”建议。你有他们，因为你正在使用WordBreakSolrSpellChecker，它破坏令牌试图为你提供一些拼写检查功能，所以如果你将删除你不应该得到这些建议。下面是从官方文档报价：

WordBreakSolrSpellChecker通过合并相邻查询词和/或破条款为多个单词提供建议。这是一个 SpellCheckComponent增强功能，利用了Lucene的 WordBreakSpellChecker。它可以检测由错位的空白导致的拼写错误，而不使用基于木瓦的字典，并且提供了对断字错误的排序支持，包括用户混合使用单词拼写错误和分词错误错误的情况在相同的查询中。它还提供碎片支持。

所以，基本上，在你的例子中 - 你从Solr索引中得到了正常的建议，如：worst, work, worm, worn, wors。所有其他只是WordBreakSolrSpellChecker的结果，你永远不会在你的索引中找到它们。

来源

2017-08-31 13:46:53 Mysterion

感谢您的详细解答！你对第一个问题有什么想法吗？如果一个单词以“y”结尾，solr将其替换为“i”并为其提供拼写检查。 – user5369925

可能在您的模式中存在一些词干。你可以分享吗？ – Mysterion

Solr拼写检查查询词修改

回答

相关问题