2015-08-08 220 views
1

我有几个索引在索尔文件。当我使用q=*:*进行查询时,我得到所有文档,但是当我向q发送一些单词时,我没有得到任何结果。以下是schema.xml的片段Solr查询返回0结果

<?xml version="1.0" ?> 


<schema name="default" version="1.5"> 
    <types> 
    <fieldtype name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/> 
    <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true" omitNorms="true"/> 
    <fieldtype name="binary" class="solr.BinaryField"/> 


    <fieldType name="int" class="solr.TrieIntField" precisionStep="0" omitNorms="true" sortMissingLast="true" positionIncrementGap="0"/> 
    <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" omitNorms="true" sortMissingLast="true" positionIncrementGap="0"/> 
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" omitNorms="true" sortMissingLast="true" positionIncrementGap="0"/> 
    <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" omitNorms="true" sortMissingLast="true" positionIncrementGap="0"/> 
    <!-- <fieldType name="sint" class="solr.SortableIntField" sortMissingLast="true" omitNorms="true"/> 
    <fieldType name="slong" class="solr.SortableLongField" sortMissingLast="true" omitNorms="true"/> 
    <fieldType name="sfloat" class="solr.SortableFloatField" sortMissingLast="true" omitNorms="true"/> 
    <fieldType name="sdouble" class="solr.SortableDoubleField" sortMissingLast="true" omitNorms="true"/> --> 

    <fieldType name="tint" class="solr.TrieIntField" precisionStep="8" omitNorms="true" positionIncrementGap="0"/> 
    <fieldType name="tfloat" class="solr.TrieFloatField" precisionStep="8" omitNorms="true" positionIncrementGap="0"/> 
    <fieldType name="tlong" class="solr.TrieLongField" precisionStep="8" omitNorms="true" positionIncrementGap="0"/> 
    <fieldType name="tdouble" class="solr.TrieDoubleField" precisionStep="8" omitNorms="true" positionIncrementGap="0"/> 

    <fieldType name="date" class="solr.TrieDateField" omitNorms="true" precisionStep="0" positionIncrementGap="0"/> 
    <!-- A Trie based date field for faster date range queries and date faceting. --> 
    <fieldType name="tdate" class="solr.TrieDateField" omitNorms="true" precisionStep="6" positionIncrementGap="0"/> 

    <fieldType name="point" class="solr.PointType" dimension="2" subFieldSuffix="_d"/> 
    <fieldType name="location" class="solr.LatLonType" subFieldSuffix="_coordinate"/> 
    <fieldtype name="geohash" class="solr.GeoHashField"/> 

    <fieldType name="text" class="solr.TextField"> 
    <analyzer type="index"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
    <analyzer type="query"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
</fieldType> 

    <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"> 
     <!-- <analyzer type="index"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> --> 
     <!-- in this example, we will only use synonyms at query time 
     <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/> 
     --> 
     <!-- <filter class="solr.LowerCaseFilterFactory"/> 
     </analyzer> 
     <analyzer type="query"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> 
     <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 

     </analyzer> --> 
     <analyzer type="index"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
    <analyzer type="query"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
    </fieldType> 

    <fieldType name="text_en" class="solr.TextField" positionIncrementGap="100"> 
     <!-- <analyzer type="index"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" 
       ignoreCase="true" 
       words="lang/stopwords_en.txt" 
       /> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     <filter class="solr.EnglishPossessiveFilterFactory"/> 
     <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/> --> 
     <!-- Optionally you may want to use this less aggressive stemmer instead of PorterStemFilterFactory: 
      <filter class="solr.EnglishMinimalStemFilterFactory"/> 
     --> 
     <!-- <filter class="solr.PorterStemFilterFactory"/> --> 
     <!-- </analyzer> 
     <analyzer type="query"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> 
     <filter class="solr.StopFilterFactory" 
       ignoreCase="true" 
       words="lang/stopwords_en.txt" 
       /> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     <filter class="solr.EnglishPossessiveFilterFactory"/> 
     <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/> --> 
     <!-- Optionally you may want to use this less aggressive stemmer instead of PorterStemFilterFactory: 
      <filter class="solr.EnglishMinimalStemFilterFactory"/> 
     --> 

     <!-- <filter class="solr.PorterStemFilterFactory"/> 
     </analyzer> --> 
     <analyzer type="index"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
    <analyzer type="query"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
    </fieldType> 

    <fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100"> 
     <analyzer> 
     <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
     </analyzer> 
    </fieldType> 

    <fieldType name="ngram" class="solr.TextField" > 
     <analyzer type="index"> 
     <tokenizer class="solr.KeywordTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     <filter class="solr.NGramFilterFactory" minGramSize="3" maxGramSize="15" /> 
     </analyzer> 
     <analyzer type="query"> 
     <tokenizer class="solr.KeywordTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     </analyzer> 
    </fieldType> 

    <fieldType name="edge_ngram" class="solr.TextField" positionIncrementGap="1"> 
     <analyzer type="index"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory" /> 
     <filter class="solr.LowerCaseFilterFactory" /> 
     <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/> 
     <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" /> 
     </analyzer> 
     <analyzer type="query"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory" /> 
     <filter class="solr.LowerCaseFilterFactory" /> 
     <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/> 
     </analyzer> 
    </fieldType> 
    </types> 

    <fields> 
    <!-- general --> 
    <field name="id" type="string" indexed="true" stored="true" multiValued="false" required="true"/> 
    <field name="django_ct" type="string" indexed="true" stored="true" multiValued="false"/> 
    <field name="django_id" type="string" indexed="true" stored="true" multiValued="false"/> 
    <field name="_version_" type="long" indexed="true" stored ="true"/> 

    <dynamicField name="*_i" type="int" indexed="true" stored="true"/> 
    <dynamicField name="*_s" type="string" indexed="true" stored="true"/> 
    <dynamicField name="*_l" type="long" indexed="true" stored="true"/> 
    <dynamicField name="*_t" type="text_en" indexed="true" stored="true"/> 
    <dynamicField name="*_b" type="boolean" indexed="true" stored="true"/> 
    <dynamicField name="*_f" type="float" indexed="true" stored="true"/> 
    <dynamicField name="*_d" type="double" indexed="true" stored="true"/> 
    <dynamicField name="*_dt" type="date" indexed="true" stored="true"/> 
    <dynamicField name="*_p" type="location" indexed="true" stored="true"/> 
    <dynamicField name="*_coordinate" type="tdouble" indexed="true" stored="false"/> 


    <field name="content" type="text_en" indexed="true" stored="true" multiValued="false" /> 

    <field name="title" type="text_en" indexed="true" stored="true" multiValued="false" /> 

    <field name="text" type="text_en" indexed="true" stored="true" multiValued="false" /> 

    <field name="image" type="text_en" indexed="true" stored="true" multiValued="false" /> 

    <field name="short_desc" type="text_en" indexed="true" stored="true" multiValued="false" /> 

    <field name="pub_date" type="text_en" indexed="true" stored="true" multiValued="false" /> 

    </fields> 

    <!-- field to use to determine and enforce document uniqueness. --> 
    <uniqueKey>id</uniqueKey> 

    <!-- field for the QueryParser to use when an explicit fieldname is absent --> 
    <defaultSearchField>text</defaultSearchField> 

    <!-- SolrQueryParser configuration: defaultOperator="AND|OR" --> 
    <solrQueryParser defaultOperator="OR"/> 
</schema> 

我可能会做错什么?

EDIT

这里是在索引的solr文档的样品。

Indexed Solr Document

这里是我跑的查询给我0的结果:

Debug Query

正如你可以清楚地看到该文档中有提到印度。所以这个文件应该已经被返回。查询生成有问题吗?

回答

1

要么你将不得不在下面的字段名称上激发您的查询

q =:content:india

,或者你必须定义一个默认域要搜索一个空白查询字符串中solrconfig文件的选择处理程序如下

<requestHandler name="/select" class="solr.SearchHandler"> 
     <!-- default values for query parameters can be specified, these 
       will be overridden by parameters in the request 
      --> 
     <lst name="defaults"> 
      <int name="rows">10</int> 
      <str name="qf">content short_description</str> 
     </lst> 
    </requestHandler> 
1

在这些情况下,我会为我的http请求添加debugQuery = true参数。显示的信息包括如何Solr 看到 q参数,所以你应该能够得到什么问题。在黑暗中拍摄我猜文档实际上没有编入索引,或者您使用的是错误的查询解析器(例如,*:*不是对DisMax的有效查询)

在您更新后,我看到一个奇怪的东西也许我可能是错的,我在读从我的手机发送此looong后):

没有填充“文本”字段...

你正在寻找有“印度”的文件但是df(查询中使用的默认字段)是“text”,所以这是正确的行为,因为“text”是空的,所以在“text”中与“india”没有任何匹配。你可以做下列操作之一:

  • 改变默认的字段从文本内容
  • 明确命名您的查询内容字段(如内容:印度)
  • 声明与SRC =内容copyField指令和DST =文本
+0

请参阅我的回答 – Andrea

1

这本来是一件好事,如果你有共享的字段类型定义中使用了什么标记生成器,所有过滤器使用等等

如果您已经使用了关键词标记器,它是将整个文本字段视为单个标记的标记器。

尝试使用StandardTokenizerFactory或WhitespaceTokenizerFactory。

如果使用WhitespaceTokenizerFactory,标记器将文本流分割为空白并将非空白字符序列作为标记返回。请注意,任何标点符号都将包含在标记中。

如果你的输入流是:“印度的共和国日的成功”

输出是:“”,“成功”,“中”,“共和国”,“日”,“中”, “印度”

再次如果您添加任何过滤器像停用词过滤器或小写过滤器,这将再次是好的。

举个例子

<fieldType name="text" class="solr.TextField"> 
    <analyzer type="index"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
    <analyzer type="query"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
</fieldType> 

这里最后的结果将是不同的

如果你的输入流是:“共和国日在印度的成功”

输出是:“” ,“成功”,“共和国”,“日”,“中”,“印度”

现在你可以通过“印度”以及“印度”查询......它会得到匹配

因为虽然索引你索引它为“印度”,而在quering你有小写的过滤器,即使搜索文本是“印度”,它会使它“印度”。

在它的上面,如果您添加禁用词过滤器厂

也不会像指数的话:“中”,“中”,“中”和这些词搜索是没有意义的(它我看来,可能不同于其他)。

solr提供了一个web界面,在这个界面中你可以分析你的字段类型,它是谁索引流...你需要改变什么,以便你得到正确的结果。

我希望这有助于...

有关所有断词和过滤器的更多信息,请看看吧..

https://cwiki.apache.org/confluence/display/solr/Tokenizers#Tokenizers-WhiteSpaceTokenizer

https://cwiki.apache.org/confluence/display/solr/Filter+Descriptions

+0

的编辑我已经用更新的问题整个架构。进行您所建议的更改。仍然得到0结果。 –

+0

您尚未更改字段“text”的fieldType。之后,你需要重新索引相同的...目前我看到文本的类型仍然是“text_en”,而不是文本...改变一样,让我知道它是否适用于你... –