2016-04-07 50 views
0

我已经下载了关系数据集,并且我想使用Rapidminer提取频繁模式和关联规则。我的问题是可以挖掘哪种数据来提取关联规则和频繁模式,关系或交易或...? 我尝试从我的关系数据集生成频繁模式,但Rapidminer错误的属性应该只是二项式?如何提取关系数据中的关联规则

回答

0

进行关联规则挖掘的正确数据集是关系数据集。有时数据集是所需的格式,有时不是,在这种情况下,重点是您应该将所有属性更改为二进制类型,以便每个单元格都可以为false或true。请记住,如果您的属性类型是数值型的,则应该进行离散化处理,并且好消息是所有这些过程都是在Rapidminer中预定义的。

0

查看RapidMiner默认存储库Samples/processes/01_Learner/24_FPGrowth,您可以在其中找到执行FPGrowth和关联规则生成的工作示例。该示例显示了如何将原始数据转换为适合这些操作的格式。运营商Nominal to Binominal是您需要的。

+0

谢谢,属性怎么样?例如我的关系数据集具有数值属性,但在快速挖掘中,当我想要做FPGrowth时,它错误的属性应该是二项式的。我应该忽略其他类型的属性还是只能在事务数据集上完成FPGrowth? – user3102296

+0

例如属性年龄有数字值,对于做FpGrowth,我应该将它转换为名义上的,然后是二项式,否则我忽略它? – user3102296

+0

您可以使用'Discretize'运算符之一将数值属性转换为名词。这些将数值范围划分为指定的箱,然后将每个示例分配到一个箱中。直接转换为标称会为每个遇到的数字生成不同的值,这可能不是您想要的。 – awchisholm