2010-10-23 212 views

回答

1
  1. 使用正确的编程语言(EX:用VB可能是灾难性的)
  2. 制定您所需要的信息和代码的相应
  3. 计划减少数据库的大小或准备数据库根据您的需要
  4. SUPER计算机(硬件是没有的事,玩笑归玩笑,你需要一个非常大的数据集尤指良好的计算机)
  5. 提高Apriori算法本身:

    •基于散列的项目集计数:相应的散列存储桶计数低于阈值的k项目集不能很频繁。
    •事务减少:在随后的扫描中不包含任何频繁的k-itemset无效的事务。
    •分区:数据库中可能频繁出现的任何项目集都必须在数据库的至少一个分区中频繁出现。
    •抽样:在给定数据的子集上进行挖掘,降低支持阈值+确定完整性的方法。
    •动态项目集计数:仅在估计所有子集都频繁时才添加新的候选项目集。

2

如果你是挖掘数据,你想节省时间,你应该考虑使用,而不是试图优化先验FPGrowth。

即使您优化Apriori,它也不会像FPGrowth的良好实施一样快。

Apriori很重要,因为它是第一个用于频繁项目集挖掘和关联挖掘的算法。但现在有一些更高效的算法。