2014-12-02 61 views
1

我是数据挖掘分析和机器学习领域的新成员。我一直在试图比较使用RapidMiner和Weka进行预测分析和聚类分析以用于我的大学任务。RapidMiner和WEKA:不同的聚类结果

就在我研究了这两种工具的优点和缺点并开始分析过程之后,我发现了一些问题。我尝试使用K-means和simpleKmeans进行Weka聚类并使用LinearRegression进行回归分析,我对结果不满意,因为它们包含显着不同的结果。所有这些我都使用了相同的数据集。数字数据集。

我一直花费大量的时间试图通过研究每种算法的每种算法的初始化来计算出某些东西,因为接口是不同的,并且有一些参数在RapidMiner上但不在Weka或其他方面,所以我有点困惑。 (这是问题吗?)

尽管如此,你认为什么是错的?有没有我错过的初始化过程?还是因为即使他们使用相同的算法,每个工具中的代码都不相同?

谢谢你的回答!

回答

1

Weka通常使用内置的标准化至少在k-means和其他算法。

如果您想要使结果具有可比性,请确保已禁用此功能。

也明白k-means是一个随机算法。不同的结果甚至来自相同的包也是可以预期的(并且是可取的)。

+0

谢谢,这只是我需要的东西。 但我们如何禁用它?我在weka资源管理器中搜索过,但没有发现如何禁用它。 除此之外,我已经做了一些谷歌搜索,是的,我发现一些文件解释它。但它没有提到weka使用什么标准化方法。 因为我不知道如何禁用它我一直在尝试在RapidMiner中添加标准化运算符,并尝试使用所有可用的方法,但仍然没有可比性。 你有什么想法吗? 非常感谢您的回复! :) – 2014-12-05 07:20:29

+0

IIRC(我不使用Weka很多,ELKI更快)有一个距离函数的选项。 – 2014-12-05 08:33:38

0

您是否使用过WEKA本身或rapidminer的WEKA扩展?你有没有试图比较WEKA和RM WEKA的结果?

+0

我使用了WEKA本身。是的,我也尝试过,结果是一样的。所以问题确实来自Weka中的simpleKmeans算法,就像Anony-Mousse所回答的一样。它包含内置的规范化 – 2014-12-05 07:23:00