2011-07-12 44 views
0

Hallo,Carrot2集群上的多个参数

我正在使用Solr和Carrot2的SearchEngine。

一切都很好,但胡萝卜做了一个奇怪的事情,我不明白。 我想从Solr获得结果并使用胡萝卜对它们进行聚类。我整合了一切,它的运作良好,但Carrot只集中在我的一个属性上。与结果匹配并且没有其他属性的那个。像:

数据

名:彼得 镇:伦敦 爱好:高尔夫,滑雪

名称:亚瑟 镇:柏林 爱好:打高尔夫球,骑自行车

名称:巴黎 镇:伦敦 爱好:高尔夫,远足

搜索:高尔夫球

集群,如: 滑雪 骑自行车远足

..但不是伦敦。

这不会自己提供我,但是当我使用CarrotClusteringWorkbench时,它会对其他参数进行聚类。

起初我试图将工作台中的配置导出到Solrconfig中,但它没有任何改变。 Solr使用配置,但他们都没有改变这个问题。

任何人都可以帮助我或扩展它吗?

回答

0

您需要将字段的名称放在solrconfig.xml中。要复制在Carrot2聚类工作台为你工作的配置,把这些在你的集群请求处理程序(或查询网址提供):

<!-- In Workbench this is "Title field name" --> 
<str name="carrot.title">name</str> 

<!-- In Workbench this is "Summary field name" --> 
<str name="carrot.snippet">features</str> 

一般来说,Carrot2效果最好用天然/非结构化文本,如搜索结果,文档摘要或内容。如果您的字段包含表示某些结构化数据的字符串,那么这些集群可能会远离您期望的(以及专用集群算法可能产生的结果)。