sklearn.cluster.DBSCAN给出了意想不到的结果

我使用DBSCAN方法对图像进行聚类，但它会产生意想不到的结果。假设我有10张图片。sklearn.cluster.DBSCAN给出了意想不到的结果

首先，我使用cv2.imread在循环中读取图像。然后我计算每个图像之间的结构相似性指数。之后，我有这样一个矩阵：

[ 
[ 1.   -0.00893619 0.   0.   0.   0.50148778  0.47921832 0.   0.   0.  ] 

[-0.00893619 1.   0.   0.   0.   0.00996088  -0.01873205 0.   0.   0.  ] 

[ 0.   0.   1.   0.57884212 0.   0.    0.   0.   0.   0.  ] 

[ 0.   0.   0.57884212 1.   0.   0.    0.   0.   0.   0.  ] 

[ 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.] 

[ 0.50148778 0.00996088 0.   0.   0.   1.   0.63224396 0.   0.   0.  ] 

[ 0.47921832 -0.01873205 0.   0.   0.   0.63224396  1.   0.   0.   0.  ] 

[ 0.   0.   0.   0.   0.   0.   0. 1.   0.77507487 0.69697053] 

[ 0.   0.   0.   0.   0.   0.   0. 0.77507487 1.   0.74861881] 

[ 0.   0.   0.   0.   0.   0.   0. 0.69697053 0.74861881 1.  ]]

看起来不错。然后，我有DBSCAN的简单invokation：

db = DBSCAN(eps=0.4, min_samples=3, metric='precomputed').fit(distances) 
labels = db.labels_ 
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)

，其结果是

[0 0 0 0 0 0 0 0 0 0]

我该怎么办错了吗？为什么它将所有图像放入一个集群？

来源

2016-08-29 alex

问题是我错误地计算了距离矩阵 - 主对角线上的条目都是零。

来源

2016-08-29 14:02:26 alex

DBSCAN通常假设不相似（距离）不是相似度。它也可以用相似性阈值来实现（参见Generalized DBSCAN）

来源

2016-08-29 15:16:01

sklearn.cluster.DBSCAN给出了意想不到的结果

回答

相关问题