0

我是机器学习的新手,我有这个基本问题。由于我在算法的数学部分很弱,我发现很难理解这一点。执行无监督学习时使用什么分类器

当您使用无监督学习(无训练样本)设计分类器(保持简单--2类分类器)的任务时,如何确定要使用何种类型的分类器(线性或非线性) ?如果我们不知道这一点,那么对特征选择(这意味着间接知道数据集是什么)的重要性变得非常关键。 我正在朝着正确的方向思考,还是有一些我不知道的东西。深入了解这个主题是非常感谢。

回答

1

分类定义为“监督学习”问题。这些模型需要给定类中的点的示例来了解如何将类彼此分开。如果您只是在寻找未标记数据点之间的关系,那么您正在解决无监督问题。研究聚类算法。 k-means是很多人开始的地方。

希望这有助于!

0

这是一个巨大的问题。是的,术语“聚类”是Google搜索的最佳切入点,但我知道您希望对分类器进行训练,其中“训练”意味着使用参数优化目标函数。第一种选择绝对不是区分性分类器(如线性分类器),因为在这些分类器中,标准最大似然(ML)目标在没有标签的情况下不起作用。如果你绝对想使用线性分类器,那么你必须调整ML目标,或者更好地使用另一个目标(接近分类器风险)。但更容易的选择是观察生成模型,如隐马尔可夫模型,朴素贝叶斯,潜在狄利克雷分配,......毫无疑问,ML目标是无标签的。