1
我有一个文档的语料库,我已经标记过。我有大约400个标签的固定列表 - 涉及不同的主题。每个文档都标有一个或多个标签,并且标题较短。 (我也有一个更大的标题列表 - 如果文档包含非常相似的内容,我经常重复使用)用于自动主题标记的MALLET - 带有训练数据
我想创建一个接口,为新文档建议标记/标题(来自我现有的列表)根据我如何标记现有文档,我将其添加到语料库中。
我已阅读关于概率主题模型LDA类,它们在您没有任何现有标记数据时对分析文本非常有用。但是我看不出有什么办法可以融入我现有的工作。
任何建议,将不胜感激。
亲切的问候
斯瓦米
我们的“文档”实际上是用户从真实文档中选择的。他们没有摘要。字数可能在500到5000字之间变化,即使源文档相同,主题内容也可能完全不相关。是否可以使用文档文本本身作为查询?我们正在使用SOLR。我想象一下,对于一个5000字的查询,除非我们做了一些非常积极的停用词去除,否则它会花费太多的处理能力。想知道你在这座山上的想法。 – swami