2013-06-25 105 views
0

我对机器学习和聚类的概念相当陌生。我已经安装了Weka并试图弄清它是如何工作的。目前,我的训练数据如下。WEKA - 天气预报

@relation weather 

@attribute year real 
@attribute temperature real 
@attribute warmer {yes,no} 

@data 

1956 , 68.98585 , yes 
1957 , 67.52131 , yes 
1958 , 65.853386 , no 
1959 , 66.32705 , yes 
1960 , 65.89773 , no 

所以,我试图建立一个模型,应该预测它是否每年和每年都变得更暖。

如果我必须预测1961年是否变暖或变冷,我是否应该提供如下的测试数据?

@relation天气

@attribute year real 
@attribute temperature real 

@data 

1961 , 70.98585  

我已删除的列温暖,我想通过训练集我先前提供的预测。我可以使用Weka提供的任何算法(J48,BayesNet等)。有人可以帮助我了解如何理解这些概念吗?

回答

0

您不需要自己制作培训和测试套件,Weka会为您做到这一点。即使你这样做,也不要删除测试集中预测的值--Weka会确保所有事情都能正确发生,但需要实际值来确定预测是否正确,并告诉你模型的执行情况。

你的问题是一个分类问题,即你想预测标签“是”或“否”。并非Weka中的所有算法都适用,但不适用的算法会变灰(如果使用GUI)。

在更一般的说明中,您不太可能获得具有良好结果的数据。这更多的是时间序列预测任务(即给定这些过去的值,它将来会如何发展),Weka并没有真正提供算法。你可以找到更多关于Wikipedia的信息。

要使用Weka获得更好的模型,您可以将前一年(或之前的2年)的温度值添加为特征,但最终听起来像您想要使用某些可以进行时间序列分析和预测的东西。

+0

我有一个巨大的天气数据集。使用Hadoop,我得到了一个更简单的数据集,其中包含年份和当年的平均温度。利用这些数据,现在我必须预测气候模式,并确定它是逐年变暖还是变冷。我有从1950年到2013年的数据收集,但它只有2列。他们是“年,平均温度”。我怎样才能让机器学习和聚类决定气候模式? – Ramesh

+1

这听起来像你想要使用线性回归的一系列温度,看看它是否有一个积极的梯度。 –

+0

再次感谢。我看到线性回归可以应用于数值。那么这是否意味着我应该对平均气温应用线性回归,并尝试预测天气?如何确定预测是否正确?我的意思是,如果标准偏差误差应该更小? – Ramesh