1

我寻求最有效和最简单的方法来将800k +学术文章分类为与定义的概念空间相关的(1)或不相关的(0)(这里:learning as it relates to work)。简单的二进制文本分类

数据是:标题&抽象(平均= 1300个字符),可以使用

任何方法或甚至组合,包括监督的机器学习和/或通过建立产生一些阈值列入特性,其中其他。

方法可以利用key terms that describe the conceptual space,虽然单纯的频率计数太不可靠。可能的途径可能涉及潜在的语义分析,n-gram,..

生成训练数据对于最多1%的语料库可能是现实的,尽管这已经意味着手动编码8,000篇文章(1 =相关,0 =无关) ,这足够吗?

具体的想法和一些简短的推理非常感谢,所以我可以做出明智的决定如何进行。非常感谢!

+0

你如何定义相关性?仅考虑1%的训练语料是不合理的。你有没有注释你的语料库?我指的是每个文件的相关/不相关标签。 –

回答

1

的几点建议:

  1. 运行LDA和(根据不同主题的数据集覆盖的20个话题)获取文档的主题和话题字分布说。将与相关性最高的主题相关的最低r%的文档分配为不相关,并将低nr%分配为不相关。然后在这些带标签的文档上训练分类器。

  2. 只用袋子的单词,并检索与您的查询(您的概念空间)最接近的r个相关和相关的borr nr百分比,并对它们进行分类器训练。

  3. 如果您有引文,您可以通过标记极少数论文在网络图上运行标签传播。

  4. 不要忘记通过将标题词更改为title_word1来使标题词与您的抽象词不同,以便任何分类器可以对它们施加更多权重。

  5. 将文章聚合成100个群集,然后选择然后手动标记这些群集。根据您的语料库中不同主题的覆盖范围选择100。您也可以对此使用分层聚类。

  6. 如果相关文档的数量少于不相关的文档,那么最好的方法是找到您的概念空间的最近邻居(例如,使用在Lucene中实现的信息检索) 。然后,您可以手动记录排名结果,直到您感觉文档不再相关。

这些方法大多是自举弱监督文本分类方式中,约你可以多文学。