2016-11-27 30 views
-1

我有ip地址数据。我想对它应用k均值聚类。如何应用它。我可以在4维空间即数据映射数据具有k表示在matlab中ip地址数据的聚类

10.0.11.4 
10.0.7.4 
10.0.8.4 
10.0.14.4 

然后我可以映射数据,4维即

10 0 11 4 
10 0 7 4 
10 0 8 4 
10 0 14 4 

回答

0

这取决于你为什么要那样做。

例如,如果您想要这样做来检查哪个IP地址在子网中或者在地理上最接近,那么K-means在那里显然会失败。因为按照以下值(exmple)的k-means

10.0.4.1 9.0.4.1

接近对方,但在现实中,他们可能在地理上太远。正如我所说,这一切都取决于你为什么要在IP地址上运行K-means?

+0

其实我正在做异常检测,因为我有IP地址,流量大小和其他功能的数据。所以我想在IP地址上应用k均值聚类,并且想要用k均值聚类,流量大小和其他特征的输出表征流量,然后想要使用这个特征流量来输入异常检测算法。 –

+0

那么在这种情况下,您根本不应该使用IP地址进行群集。不要使用k-means算法,只能使用数字的特征。使用IP地址作为分类属性。 –

+0

我的教授不会允许不使用IP地址。聚类后,我使这些IP地址的单个值例如256,然后对每个i.p使用这个值。解决一个值就会形成。所以我想要如何群集这些数据。我可以在4维空间中映射,即第1号。在X轴上的IP,然后第二个号码。在Y轴上的ip,第3号。在Z轴和第四np。 ip在K轴上的映射,所以这些映射到XYZK平面上的所有IP地址 –

1

听起来像是一个可怕的想法这样做。它将导致相当无意义的集群(关闭IP通常不相关,并且托管多个站点,因此同一IP可能会托管合法的汽车商店和非法材料)。

你知道吗每个IP是一个 number

带有点号的四位数字对于手动网络管理只是更容易使用。但你看到的只是一个四字节整数。以十六进制编写的IP 127.0.0.10x7F000001和十进制2130706433

我最近没有证实这一点,但我很确定所有的浏览器仍然需要支持IP的十进制概念。如果您在本地主机上有Web服务器,请尝试通过http:// 2130706433/访问它,或者在命令行上尝试ping 2130706433

四字节数据空间上的K均值只有在IP地址如何分配时才有意义。即你会需要有10个。 .123.45和10. .123.45总是具有相同的共同点,就好像它们是最后一个字节中的后续IP一样。

+0

这已经在ieee论文中实现,即“Wang,Jing,et al。”Network anomaly detection:A survey and comparative analysis of stochastic and deterministic methods。“Decision和控制(CDC),2013 IEEE IEEE第52届年会,IEEE,2013年“。我是指那篇论文。 IP地址数据文件.mat https://www.dropbox。com/s/3wptzvbkp77ehkp/nv1d.mat?dl = 0并在文本中https://www.dropbox.com/s/vjuiiv9j9f3bixc/nv1d.txt?dl=0 –