我寻求最有效和最简单的方法来将800k +学术文章分类为与定义的概念空间相关的(1)或不相关的(0)(这里:learning as it relates to work)。简单的二进制文本分类
数据是:标题&抽象(平均= 1300个字符),可以使用
任何方法或甚至组合,包括监督的机器学习和/或通过建立产生一些阈值列入特性,其中其他。
方法可以利用key terms that describe the conceptual space,虽然单纯的频率计数太不可靠。可能的途径可能涉及潜在的语义分析,n-gram,..
生成训练数据对于最多1%的语料库可能是现实的,尽管这已经意味着手动编码8,000篇文章(1 =相关,0 =无关) ,这足够吗?
具体的想法和一些简短的推理非常感谢,所以我可以做出明智的决定如何进行。非常感谢!
你如何定义相关性?仅考虑1%的训练语料是不合理的。你有没有注释你的语料库?我指的是每个文件的相关/不相关标签。 –