简单的二进制文本分类

我寻求最有效和最简单的方法来将800k +学术文章分类为与定义的概念空间相关的（1）或不相关的（0）（这里：learning as it relates to work）。简单的二进制文本分类

数据是：标题&抽象（平均= 1300个字符），可以使用

任何方法或甚至组合，包括监督的机器学习和/或通过建立产生一些阈值列入特性，其中其他。

方法可以利用key terms that describe the conceptual space，虽然单纯的频率计数太不可靠。可能的途径可能涉及潜在的语义分析，n-gram，..

生成训练数据对于最多1％的语料库可能是现实的，尽管这已经意味着手动编码8,000篇文章（1 =相关，0 =无关），这足够吗？

具体的想法和一些简短的推理非常感谢，所以我可以做出明智的决定如何进行。非常感谢！

你如何定义相关性？仅考虑1％的训练语料是不合理的。你有没有注释你的语料库？我指的是每个文件的相关/不相关标签。 –

的几点建议：

运行LDA和（根据不同主题的数据集覆盖的20个话题）获取文档的主题和话题字分布说。将与相关性最高的主题相关的最低r％的文档分配为不相关，并将低nr％分配为不相关。然后在这些带标签的文档上训练分类器。
只用袋子的单词，并检索与您的查询（您的概念空间）最接近的r个相关和相关的borr nr百分比，并对它们进行分类器训练。
如果您有引文，您可以通过标记极少数论文在网络图上运行标签传播。
不要忘记通过将标题词更改为title_word1来使标题词与您的抽象词不同，以便任何分类器可以对它们施加更多权重。
将文章聚合成100个群集，然后选择然后手动标记这些群集。根据您的语料库中不同主题的覆盖范围选择100。您也可以对此使用分层聚类。
如果相关文档的数量少于不相关的文档，那么最好的方法是找到您的概念空间的最近邻居（例如，使用在Lucene中实现的信息检索）。然后，您可以手动记录排名结果，直到您感觉文档不再相关。

这些方法大多是自举或弱监督文本分类方式中，约你可以多文学。

2016-12-02 02:49:35 Ash

回答