2016-03-14 152 views
-1

这是我的作业。我不是要你在这里做我的功课,我需要一个提示继续前进。数据挖掘 - K近邻

Page1

Page2

我知道什么是K近邻算法,但是我总是看到它在图形上不是这样。你们能告诉我该怎么办吗?我一直在试图找出如何开始这样做,但我不能。我会很感激你们的一个小提示。

回答

1

此作业可帮助您了解KNN中的步骤。 KNN基于距离。找到K个最近的邻居,然后可能投票给分类问题。

您的训练数据可以被认为是(x1,x2,y):年龄和利润是特征(x1,x2),而BUY或NOT BUY是标签/输出y。

要应用Knn,您需要计算基于特征的距离。由于这两个功能共享不同的单位(年份,美元),因此您应该将它们转换为非单位特征,这就是所谓的标准化,即4.1中的单元特征。之后,特征向量看起来像(-0.4,-0.8)。如果使用了第4.1部分中的建议公式,则该数字应介于-1和0之间。

然后使用归一化的特征来计算每个训练数据点与您感兴趣的公司之间的距离(在讲义中的欧几里得)(也归一化)。这在4.2中是必需的。

最后一步应该是选择K最近的邻居,并从这些邻居的输出中判断是否购买或不购买。 (简单的投票也许?)