2016-08-29 43 views
0

我使用DBSCAN方法对图像进行聚类,但它会产生意想不到的结果。假设我有10张图片。sklearn.cluster.DBSCAN给出了意想不到的结果

首先,我使用cv2.imread在循环中读取图像。然后我计算每个图像之间的结构相似性指数。之后,我有这样一个矩阵:

[ 
[ 1.   -0.00893619 0.   0.   0.   0.50148778  0.47921832 0.   0.   0.  ] 

[-0.00893619 1.   0.   0.   0.   0.00996088  -0.01873205 0.   0.   0.  ] 

[ 0.   0.   1.   0.57884212 0.   0.    0.   0.   0.   0.  ] 

[ 0.   0.   0.57884212 1.   0.   0.    0.   0.   0.   0.  ] 

[ 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.] 

[ 0.50148778 0.00996088 0.   0.   0.   1.   0.63224396 0.   0.   0.  ] 

[ 0.47921832 -0.01873205 0.   0.   0.   0.63224396  1.   0.   0.   0.  ] 

[ 0.   0.   0.   0.   0.   0.   0. 1.   0.77507487 0.69697053] 

[ 0.   0.   0.   0.   0.   0.   0. 0.77507487 1.   0.74861881] 

[ 0.   0.   0.   0.   0.   0.   0. 0.69697053 0.74861881 1.  ]] 

看起来不错。然后,我有DBSCAN的简单invokation:

db = DBSCAN(eps=0.4, min_samples=3, metric='precomputed').fit(distances) 
labels = db.labels_ 
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0) 

,其结果是

[0 0 0 0 0 0 0 0 0 0] 

我该怎么办错了吗?为什么它将所有图像放入一个集群?

回答

0

问题是我错误地计算了距离矩阵 - 主对角线上的条目都是零。

1

DBSCAN通常假设不相似(距离)不是相似度。它也可以用相似性阈值来实现(参见Generalized DBSCAN)

相关问题