2017-02-10 50 views
0

我想找到双峰分布的阈值。例如,双峰分布可能看起来像下面这样:通过KMeans聚类确定双峰分布的阈值

import numpy as np 
import matplotlib.pyplot as plt 
np.random.seed(45) 
n = 1000; b = n//10; i = np.random.randint(0,2,n) 
x = i*np.random.normal(-2.0,0.8,n) + (1-i)*np.random.normal(2.0,0.8,n) 
_ = plt.hist(x,bins=b) 

bimodal_histogram

试图找到聚类中心没有工作,因为我不知道如何矩阵,H,应该被格式化:

from sklearn.cluster import KMeans 
h = np.histogram(x,bins=b) 
h = np.vstack((0.5*(h[1][:-1]+h[1][1:]),h[0])).T # because h[0] and h[1] have different sizes. 
kmeans = KMeans(n_clusters=2).fit(h) 

我希望能够找到解决的聚类中心-2和2的阈值,然后将两个聚类中心的中点。

回答

1

您的问题对我有点困惑,所以请让我知道,如果我不正确地解释它。我认为你基本上是在尝试做一维kmeans,并尝试将频率作为第二维来获得KMeans的工作效果,但实际上只是将[-2,2]作为中心的输出而不是[(-2,y1), (2,y2)]而感到满意。

要做到一维k均值你可以重塑你的数据是1长度矢量n(类似的问题:Scikit-learn: How to run KMeans on a one-dimensional array?

代码:

import numpy as np 
import matplotlib.pyplot as plt 
np.random.seed(45) 
n = 1000; 
b = n//10; 
i = np.random.randint(0,2,n) 
x = i*np.random.normal(-2.0,0.8,n) + (1-i)*np.random.normal(2.0,0.8,n) 
_ = plt.hist(x,bins=b) 

from sklearn.cluster import KMeans 
h = np.histogram(x,bins=b) 
h = np.vstack((0.5*(h[1][:-1]+h[1][1:]),h[0])).T # because h[0] and h[1] have different sizes. 

kmeans = KMeans(n_clusters=2).fit(x.reshape(n,1)) 
print kmeans.cluster_centers_ 

输出:

[[-1.9896414] 
[ 2.0176039]]