2014-01-27 109 views
1

我正在处理简历(简历)进行分类,我已经使用了LDA。 通过设置(N = 3),我对CV(市场营销,计算机,通信)的3个不同概念的结果很好。 现在的问题是,我如何创建新的主题(当然,通过添加到现有的主题)新的简历与金融概念(或者其他概念)?用(LDA,HDP)自动创建主题?

事实上,我的目标是每次产生新的话题以获得新的概念。

我每天都用不同的概念获得不同的CV,并且我怀疑选择哪种算法(HDP,On_Line LDA)可以用于自动分类。

回答

0

LDA或其他主题模型不是分类方法。它们应该被看作监督学习环境下的维数降低/预处理/同义词发现方法:不是将文档作为一个词组表示为分类器,而是将其表示为它在主题上的后验。不要认为,因为您的分类任务中有3个班级,您可以选择3个LDA主题。主题模型参数应设置为对文档进行最佳建模(以混淆度或主题模型的其他一些质量度量标准进行度量,检查David Mimno最近为其他可能性所做的工作)以及主题概率/后验参数向量(或任何您认为是有用的)然后应该被馈送到有监督的学习方法。

您会发现这正是Blei等人在原始LDA论文中所做的实验设置。

+0

我测试了LDA_Gibbas采样器,通过选择Topic(In environement R)和新文档(当然还有新字典),我使用了相关Topic.I的意思是对于每个新文档,我应该固定主题数量(它是我的第一个难题),我测试了相关主题(我之前做过)。我可以如何将相关主题与现有主题进行整合?(这是我的第二个难题)。 – Vampir

+0

为了解决我的问题,我写了一个融合函数,用于将退出的主题与相关主题进行整合,该功能将退出的主题与相关主题以及不在任何一个主题中的单词相比较,它将在新主题中进行比较(但这种方式不适用好)! – Vampir