2012-03-02 55 views
4

我试图使用MCS(多分类系统)做一些更好的工作,有限的数据即变得更加准确。集成学习,多分类系统

我现在正在使用K-means聚类,但可能选择使用FCM(模糊C均值),数据聚集成组(聚类),数据可能代表任何东西,例如颜色。我首先将数据在预处理和规范化之后进行聚类,然后得到一些间隔很多的不同簇。然后,我继续使用这些聚类作为贝叶斯分类器的数据,每个聚类代表一种不同的颜色,并且训练贝叶斯分类器,然后将来自聚类的数据通过单独的贝叶斯分类器进行分类。每个贝叶斯分类器只训练一种颜色。如果我们将色谱3-10作为蓝色13-20作为红色,将0-3之间的光谱作为白色1.5,然后逐渐将蓝色转变成1.5-3,对于蓝色变成红色。

我想知道的是怎样还是怎样样聚集方法(如果这是你会用什么)可以应用,使得贝叶斯分类器可以变得更强,它是如何工作的?聚合方法是否已经知道答案,或者它是否是人类交互,可以纠正输出,然后这些答案会返回到贝叶斯训练数据中?或者两者的结合?看看Bootstrap聚合它涉及让每个模型在合奏投票中具有相同的权重,所以在这个特定的实例中我不太确定我会使用bagging作为我的聚合方法吗?然而,提升包括通过训练每个新模型实例来逐步构建一个集合,以强调先前模型被错误分类的训练实例,但不确定这是否是一种更好的替代装袋方法,因为我不确定它如何逐步建立在新实例上?而最后一个是贝叶斯模型平均这是一个整体的技术,旨在通过从假设空间采样的假设,并使用贝叶斯法结合他们逼近贝叶斯最优分类,但是完全不能确定你会怎么样从搜索空间的假设?

我知道通常你会使用竞争的方法来反弹两个分类算法之一,一个说是的,一个说可能一个权重可以应用,如果它的正确你得到两个分类器的最好但为了保持清酒,我不想要一种竞争方法。

另一个问题是,以这样的方式将这两种方法一起使用,将是有益的,我知道我所提供的例子是非常原始的,不能在这个例子适用,但它可以在更复杂的数据是有益的。

+0

我想你会得到在DSP板更好的答案 – Ali 2012-03-02 16:51:36

+0

嗨对不起什么是DSP板,信号处理? – 2012-03-03 13:23:39

+0

是的http://dsp.stackexchange.com/ – Ali 2012-03-03 15:20:46

回答

3

我对方法的一些问题,你是以下几点:

  1. K-部件将在每个集群是最接近该点。然后你使用输出数据训练分类器。我认为分类器可能会胜过聚类隐式分类,但只能考虑每个聚类中样本的数量。例如,如果集群后的训练数据有typeA(60%),typeB(20%),typeC(20%);您的分类器将更喜欢将不明确的样本输入到A中,以获得更少的分类错误。
  2. K-均值取决于/“功能”你的对象采取什么样的“坐标”。如果您使用不同类型对象混合的特征,K-means性能会下降。从特征向量中删除这些特征可能会改善您的结果。
  3. 你的“功能” /表示要分类的对象“坐标”可以在不同的单位进行测量。这个事实会影响你的聚类算法,因为你通过聚类错误函数隐式地设置它们之间的单位转换。使用错误函数,通过多个聚类试验(在不同的聚类初始化时获得)选择最后一组聚类。因此,隐式比较特征向量的不同坐标(可能引入隐式转换因子)。

考虑到这三点,您可能会通过添加预处理阶段来提高算法的整体性能。例如,在计算机视觉应用的物体识别中,从图像中获取的大部分信息仅来自图像边界。所有的颜色信息和部分纹理信息都未被使用。从处理图像的图像中减去边界以获得面向方向梯度(HOG)描述符的直方图。这个描述符给出了“特征”/“坐标”,它们将物体分离得更好,从而增加了分类(物体识别)的性能。理论描述符抛出图像中包含的信息。然而,它们具有两个主要优点(a)分类器将处理较低维度的数据和(b)从测试数据计算的描述符可以更容易地与训练数据相匹配。

在你的情况,我建议你尽量提高你的准确度采取类似的办法:

  1. 提供更丰富的功能,以您的聚类算法
  2. 充分利用已有知识的领域来决定哪些功能你应该添加并从特征向量删除
  3. 始终考虑获得标签数据的可能性,从而使监督学习算法可以应用

我希望这有助于...