我有一个数据集,我需要处理PCA(主成分分析,维数减少程序),这很容易使用Weka进行。如何将Weka与Hadoop链接?
而且由于数据集的大小很大,Weka显示内存问题,如果我将Weka与Hadoop链接,可以解决这些问题。在服务器中使用weka运行算法。任何人都可以帮我解决这个问题。如何将Weka与Hadoop连接起来处理较大的数据集?请帮忙!
三江源..
我有一个数据集,我需要处理PCA(主成分分析,维数减少程序),这很容易使用Weka进行。如何将Weka与Hadoop链接?
而且由于数据集的大小很大,Weka显示内存问题,如果我将Weka与Hadoop链接,可以解决这些问题。在服务器中使用weka运行算法。任何人都可以帮我解决这个问题。如何将Weka与Hadoop连接起来处理较大的数据集?请帮忙!
三江源..
Weka 3.7拥有用于Hadoop中分布式处理的新软件包。这些包提供的作业之一将计算Hadoop中的相关(或协方差)矩阵。用户可以选择使用相关矩阵作为PCA分析的输入(此部分在Hadoop之外运行)并生成“受过训练”的Weka PCA过滤器。这样会根据实例的数量(但不包括原始功能的数量)对Weka的PCA分析进行缩放,因为PCA计算仍然在客户端计算机上本地发生。
有关Hadoop的包的更多信息,请参阅:
http://markahall.blogspot.co.nz/2013/10/weka-and-hadoop-part-1.html
的distributedWekaHadoop包可以通过包管理器中的Weka 3.7进行安装。
干杯, 马克。
Weka软件包可以使用Hadoop 2.5.x及更高版本吗?我试着在Hadoop 2.6.0上运行它,但它给版本不匹配。根据Mark Hall的文档,该软件包在Hadoop 1.1.2上运行 – mfmz
根据不同的算法,它可能是非常复杂的重写它使用Hadoop的。
这有帮助吗? http://markahall.blogspot.in/2013/10/weka-and-hadoop-part-1.html –