2012-07-17 23 views

回答

0

从频繁模式计算规则相当容易,并且可能不会从并行和分布中获益很多。毕竟,预计数据中的频繁模式数量会少得多。

因此,在Mahout之外做这件事可能会快很多,这取决于您拥有的频繁模式的数量。

0

Mahout并不专门用于模式挖掘。

您可以检查SPMF软件:http://www.philippe-fournier-viger.com/spmf/index.php(我是作者)。

它拥有超过45种与频繁项目集和关联规则挖掘相关的算法的Java源代码。

它包括一些经典算法,如FPGrowth的算法。但它也提供了几种专门的算法,这些算法在其他数据挖掘工具中找不到,例如用于挖掘稀有项目集,可擦除项目集,高效用项目集,来自不确定数据的项目集等等。

例如,许多不同类型的关联规则,您可以尝试旁边的“经典”关联规则,如:封闭关联规则,关联规则的信息和通用基本规则,顺序规则等。

它是根据GPL对于一些最流行的算法有一个简单的GUI界面,如果你有任何问题,你可以在论坛发帖,我会尽力回答你。

+0

谢谢,但它不是我想要的 – whiletrue 2012-07-19 00:35:11

+0

在mahout中,只有他们所谓的“并行FP增长”才能找到项目集。找到项目集后,没有用于生成关联规则的算法。如果你想找Mahout的规则,你需要自己实现它。此外,请注意,他们所称的“并行FPGrowth”与原始FPGrowth有点不同。 Mahout中的版本挖掘了top-k项目集,而不是使用minsup阈值挖掘项目集。 – Phil 2012-07-31 14:28:55