2015-08-13 63 views
0

我试图在Weka中应用Apriori算法。
维基百科具有用于一个简单的例子(Apriori algorithm):在Weka中的Apriori算法中获取频率

alpha beta epsilon 
alpha beta theta 
alpha beta epsilon 
alpha beta theta 

以下关联规则可从该表来确定:与alpha

  • 100%还含有beta
  • 50 %的套与alpha,测试版也有epsilon
  • 50%套与alpha,测试版所以有theta

我转换这个项目分成CSV并添加另一个属性行,让我终于有了这个文件:

prod1,prod2,prod3 
alpha,beta,epsilon 
alpha,beta,theta 
alpha,beta,epsilon 
alpha,beta,theta 

我装成Weka中,并点击标签“助理”,默认情况下选择“Apriori”算法。

结果我得到如下:

1. prod2=beta 4 ==> prod1=alpha 4 conf:(1) 
2. prod1=alpha 4 ==> prod2=beta 4 conf:(1) 
3. prod3=epsilon 2 ==> prod1=alpha 2 conf:(1) 
4. prod3=theta 2 ==> prod1=alpha 2 conf:(1) 
5. prod3=epsilon 2 ==> prod2=beta 2 conf:(1) 
6. prod3=theta 2 ==> prod2=beta 2 conf:(1) 
7. prod2=beta prod3=epsilon 2 ==> prod1=alpha 2 conf:(1) 
8. prod1=alpha prod3=epsilon 2 ==> prod2=beta 2 conf:(1) 
9. prod3=epsilon 2 ==> prod1=alpha prod2=beta 2 conf:(1) 
10. prod2=beta prod3=theta 2 ==> prod1=alpha 2 conf:(1) 

但我也希望频率在维基百科(见上文)的例子。

回答

1

Weka给你的信心(conf:(1))正是你想要的“频率”。

正如你所看到的,你的规则“50%的集合与alpha,beta也有epsilon”不在Weka的输出中。这是因为Weka列出按降序排列的按置信度排序的规则。因此,要列出您的50%规则,您需要增加Weka输出的数量。

这可以通过增加“numRules”(默认值为10,参见下面的截图)来完成。对于您的特定示例,您还需要将“minMetric”从0.9降至0.5(或更低)。

Weka GUI Apriori parameters