我正在开发一个项目,旨在利用我的数据集的集群结构来改进用于Binray分类的受监督的主动学习分类器。我用下面的代码中使用scikit-leanr的K均值执行群集我的数据,X
:随机抽样每个集群的百分比
k = KMeans(n_clusters=(i+2), precompute_distances=True,).fit(X)
df = pd.DataFrame({'cluster' : k.labels_, 'percentage posotive' : y})
a = df.groupby('cluster').apply(lambda cluster:cluster.sum()/cluster.count())
这两个类是正(由1表示)和负(用0表示),并存储在一个数组y
。 此代码首先集群X
,然后在数据框中存储每个簇的数量和其中的正实例的百分比数。
我现在想从每个群集中随机选择点,直到我采样了15%。我怎样才能做到这一点?
如这里要求是包括测试数据集的简化脚本:
from sklearn.cluster import KMeans
import pandas as pd
X = [[1,2], [2,5], [1,2], [3,3], [1,2], [7,3], [1,1], [2,19], [1,11], [54,3], [78,2], [74,36]]
y = [0,0,0,0,0,0,0,0,0,1,0,0]
k = KMeans(n_clusters=(4), precompute_distances=True,).fit(X)
df = pd.DataFrame({'cluster' : k.labels_, 'percentage posotive' : y})
a = df.groupby('cluster').apply(lambda cluster:cluster.sum()/cluster.count())
print(a)
注:的真实数据是由数以千计的功能和成千上万的数据实例的大得多。
针对@SandipanDey:
我不能告诉你太多,但基本上我们正在处理一个高度不平衡的数据集(1:10,000),我们只能识别少数类实例兴趣召回率> 95%,同时减少所需标签的数量。 (召回需要与医疗保健有关。)
少数示例集群在一起,任何包含正实例的集群通常至少包含x%,因此通过抽样x%我们确保我们确定所有与任何正面实例聚类。因此,我们能够快速减小数据集的大小,并有可能带来积极的影响。这个组合数据集可以用于主动学习。我们的做法是由松散'Hierarchical Sampling for Active Learning'
我不认为你也代表否定与1也。无论如何,你发布一个(小)示例数据集来做到这一点? – Denziloe
@Denziloe好,赶紧编辑吧。将很快添加小型测试数据集。 – scutnex
@Denziloe添加了测试数据集。 – scutnex