我有一组要点。它们的几何(SRID:4326)存储在数据库中。 我已经给出了一个代码,旨在将这些点与DBSCAN进行聚类。参数设置如下:eps = 1000,min_points = 1。DBSCAN的参数eps,python
我获得的距离不到1000米。我相信距离不到1000米的两个点属于同一个簇。 epsilon真的是米吗?
的代码如下:
self.algorithm='DBSCAN'
X=self.data[:,[2,3]]
if self.debug==True:
print 'Nbr of Points: %d'% len(X)
# print X.shape
# print dist_matrix.shape
D = distance.squareform(distance.pdist(X,'euclidean'))
# print dist_matrix
# S = 1 - (D/np.max(D))
db = DBSCAN(eps, min_samples).fit(D)
self.core_samples = db.core_sample_indices_
self.labels = db.labels
目的不是要找到另一种方式来运行它,但真正了解EPS的价值。它代表的是距离。 Min_sample被设置为1,因为我接受确实具有1个样本大小的聚类。
请勿使用“euclidean”。您的数据不在欧几里德向量空间中。在欧洲和美国的大部分地区,距离将被扭曲30%以上(而且北方更严重);而欧几里得距离不了解坐标系的-180°环绕。还要避免计算距离矩阵,这需要'O(n^2)'内存和运行时间。使用索引加速来快速找到邻居。 –