Solr中的群集文档

首先，我必须指出，我的意思是文档群集是一种数据挖掘技术，而不是工作负载群集或类似的东西。Solr中的群集文档

从一开始，我会说我有什么：

很久以前，我一直在使用一些库（不记得它的名字），它接收到文档作为输入，并导致集群ID，如果它认为它是一个新集群，那么它创建一个，等等。但它运行缓慢（我甚至不记得它的名字）。

我发现了一本关于Mahout的书，但仍然无法弄清楚我该读什么以及我想要什么。而且，也许，Solr/Mahout不可能为Solr编写自己的插件。

我会很感激任何想法，建议如何建立这样的系统。

感谢，提前

2012-09-12 elgato

我不认为你需要任何类型的自定义Solr的插件。这是因为新文档的分类可以在“新闻”的正常索引过程中确定，因此您可以将其作为普通字段添加到每个Solr文档中。

当谈到使用Mahout进行聚类和分类时，我认为Mahout in Action这本书是一个很好的开始。

干杯。

2012-09-13 07:44:57 pagid

是的，我正在阅读那本书一段时间，但仍需要一些共享经验，才能把它算入数量。 – elgato

但是你应该问一些更具体的问题 - 你的数据是怎么样的 - 聚类/分类等的信息基础是什么...... – pagid

相反，一个旧的帖子，但让我回应，你可以使用carrot2 http://project.carrot2.org/index.html solr结果聚类。这总是在飞行中。

2014-01-07 14:36:52 Ganesh

回答