我已经运行Lucene/Solr 4来测试不同的功能,也是“集群”。 目前,有100万份文档被编入索引。每个文档具有以下字段:(胡萝卜)聚类如何在solr中工作?
ID (unique Key) Example1: 10245
Example2: 24974
TOPIC (Keywords of the document) Example1: "disaster/japan/nuclear power station"
Example2: "world/japan/nuclear power"
HEADLINE (1 line of text): Example1: "explosion at nuclear power plant in japan"
Example2: "news about japans nuclear power plant"
TEXT (the full text): "In the Japanese nuclear power plant in Fukushima..."
所有的字段索引和存储,EXAPT TEXT,这是唯一的索引,不存储。 我用下面的具体配置:
<str name="carrot.title">TOPIC</str>
<str name="carrot.snippet">HEADLINE</str>
如果你看你看的例子中,该话题是不同的,但日本是一样的。是否有可能以这种方式配置solr/carrot,example1和example2将在一个集群中?因为匹配的“日本”?
此外,可能会有第三个主题如“新闻/核电”,里面没有“日本”,但HEADLINE和TEXT正在使用的词语:日本电厂。为了在一个集群中接收这3条新闻,solr/carrot配置是相关的?
谢谢!
谢谢,有很多有趣的想法,我会尝试。 –