2012-09-12 61 views
0

首先,我必须指出,我的意思是文档群集是一种数据挖掘技术,而不是工作负载群集或类似的东西。Solr中的群集文档

从一开始,我会说我有什么:

  • 我得到的文件所有的时间。我们假设这些都是新闻(这很相似)。
  • 每当我收到新的“新闻”批次时,我都应该将它们添加到Solr索引并获取该文档的群集信息。将这些信息存储在数据库中(所以我应该知道每个文档的集群)。
  • 我不能等待群集定义服务/程序不时启动,但它应该即时定义群集。
  • 我希望能够在一段时间内获得集群(例如,我想仅为一个月前装载的文档搜索集群)。
  • 我每天会有成千上万的新文档,总体基数达数百万。

很久以前,我一直在使用一些库(不记得它的名字),它接收到文档作为输入,并导致集群ID,如果它认为它是一个新集群,那么它创建一个,等等。但它运行缓慢(我甚至不记得它的名字)。

我发现了一本关于Mahout的书,但仍然无法弄清楚我该读什么以及我想要什么。而且,也许,Solr/Mahout不可能为Solr编写自己的插件。

我会很感激任何想法,建议如何建立这样的系统。

感谢,提前

回答

0

我不认为你需要任何类型的自定义Solr的插件。这是因为新文档的分类可以在“新闻”的正常索引过程中确定,因此您可以将其作为普通字段添加到每个Solr文档中。

当谈到使用Mahout进行聚类和分类时,我认为Mahout in Action这本书是一个很好的开始。

干杯。

+0

是的,我正在阅读那本书一段时间,但仍需要一些共享经验,才能把它算入数量。 – elgato

+0

但是你应该问一些更具体的问题 - 你的数据是怎么样的 - 聚类/分类等的信息基础是什么...... – pagid