我在尝试使用scikit-learn
将一些文本文档聚类在一起。我试用了DBSCAN和MeanShift,并想要确定哪些超参数(例如针对MeanShift的bandwidth
和针对DBSCAN的eps
)针对我正在使用的数据类型(新闻文章)的最佳工作方式。GridSearchCV如何用于聚类(MeanShift或DBSCAN)?
我有一些测试数据,其中包含预先标记的簇。我一直在尝试使用scikit-learn
的GridSearchCV
,但不明白在这种情况下应该如何(或者是否可以)应用,因为它需要分割测试数据,但是我想对整个数据集运行评估,并且将结果与预先标记的数据进行比较。
我一直在试图指定一个计分函数,它将估计器的标签与真实标签进行比较,但它当然不起作用,因为只有数据样本被聚集,而不是全部。
这里有什么合适的方法?
是的,我正在自己实施它的过程中。我只是想知道'scikit-learn'是否支持这个开箱即用的功能,并且我忽略了一些东西。 我的计划是对几个不同的预先标记的数据集进行网格搜索,并深入了解您指出的潜在问题 - 感谢您指出风险! – frnsys 2014-09-03 12:03:13
'sklearn.cross_validation'有各种迭代器,可以产生数据集的分割(交叉验证,随机分割等)。这些应该使这个循环很容易编写。 – 2014-09-03 16:35:59