2012-10-04 45 views
1

我有一个文档的语料库,我已经标记过。我有大约400个标签的固定列表 - 涉及不同的主题。每个文档都标有一个或多个标签,并且标题较短。 (我也有一个更大的标题列表 - 如果文档包含非常相似的内容,我经常重复使用)用于自动主题标记的MALLET - 带有训练数据

我想创建一个接口,为新文档建议标记/标题(来自我现有的列表)根据我如何标记现有文档,我将其添加到语料库中。

我已阅读关于概率主题模型LDA类,它们在您没有任何现有标记数据时对分析文本非常有用。但是我看不出有什么办法可以融入我现有的工作。

任何建议,将不胜感激。

亲切的问候

斯瓦米

回答

0

对于标签的建议,我们的经验是只使用一个搜索引擎,无需主题建模。

尝试以下步骤:

  • 安装上所有的文件
  • 使用标题或新文档的抽象的查询在索引搜索的标题和摘要的索引和列表可以实现类似的文件。
  • 使用列表中前几个最相似的文档,我们将它们上的所有标签作为标签捆绑在一起
  • 按每个标签的频率对标签捆绑进行排序,并且第一个最频繁的标签是最终结果

此解决方案是可行的。

+0

我们的“文档”实际上是用户从真实文档中选择的。他们没有摘要。字数可能在500到5000字之间变化,即使源文档相同,主题内容也可能完全不相关。是否可以使用文档文本本身作为查询?我们正在使用SOLR。我想象一下,对于一个5000字的查询,除非我们做了一些非常积极的停用词去除,否则它会花费太多的处理能力。想知道你在这座山上的想法。 – swami