2014-05-21 69 views
0

我有不同时间创建的大量文档。我想暂时集群这些文件。按时间聚类文档

我想将文档聚类为具有相关时间戳的文档组。例如,如果在时间X创建的文档数量中存在“峰值”,则它们将被分组到相同的簇中,依此类推......

假设我们不知道可能有多少个簇。

+2

谷歌“爆检测”,“秒杀检测”,“峰值检测”。你在看文件的事实在很大程度上是不相关的,只是将它们看作点事件。 –

回答

1

如果你不知道有多少个星团,那么增加新的天然气就是很好的算法。 你可以在这里玩的演示:http://www.demogng.de/

在你的任务,你需要1D的情况。

您可以在这里找到的实现方式之一:https://github.com/BelBES/libGNG