2014-01-27 71 views
1

重写:从文本文档中提取技术关键字

我有一个计算机科学相关文档的语料库。我想提取特定于域的关键字。例如JAVA,C#,HTML,OOP,UML,Unity等。我一直在寻找类似牛津词典的来源来计算,但是他们的API尚未运行。我也尝试过使用Webopedia进行计算机科学术语的研究,但这并不是包含性和更新性的(例如,它不包括我的文档中的某些单词,例如F#),或者维基百科的所有术语都未列在一起。是否有更具包容性的来源或合适的方法来提取这些关键字?我正在使用Python和NLTK。例如,tf-idf没有帮助,因为某些特定领域的词几乎在所有文档中都很常见,因此这些词不会得到较高的评分。我认为如果我可以使用POS标记会很有帮助,但我不确定哪个选项对我的应用程序最好。就拿串下面是一个例子:

“在JavaScript,JSON和AJAX专家级能力和JavaScript框架,如jQuery 有深入的了解“ 在这里我要提取这些话:‘JavaScript的’, 'JSON','AJAX','Frameworks','JQuery'],但是当我使用NLTK的POS标记搜索名词时,我会得到'级别','能力','知识'...。 感谢您的帮助。

+1

招聘数据库? –

+2

“所有必要的概念和技巧” - D3,three.js或F#如何“必要”? – user2357112

+1

我不知道为什么这个问题被拒绝投票。 @ user2357112你可能知道,知道诸如F#之类的语言,API和库在任何时候都被列为工作发布的技能,所以我不确定在我的问题中有什么让你感到困惑。 – Mina

回答

5

为什么不下载StackOverflow数据转储并编写程序来过滤标签?

他们只是已经发布了archive.org,看到here

当然,这不包括全部条款,并会有一些误报,但我认为这是最接近你会得到。

+1

这是一个非常好的主意,我会给它一个机会。 – Mina

+1

我试了一下,它实际上非常非常有帮助!Thanksss – Mina

+0

@Mina,你能分享你解析过的stackoverflow中的标签列表吗? – guilhermecgs