我有一个计算机科学相关文档的语料库。我想提取特定于域的关键字。例如JAVA,C#,HTML,OOP,UML,Unity等。我一直在寻找类似牛津词典的来源来计算,但是他们的API尚未运行。我也尝试过使用Webopedia进行计算机科学术语的研究,但这并不是包含性和更新性的(例如,它不包括我的文档中的某些单词,例如F#),或者维基百科的所有术语都未列在一起。是否有更具包容性的来源或合适的方法来提取这些关键字?我正在使用Python和NLTK。例如,tf-idf没有帮助,因为某些特定领域的词几乎在所有文档中都很常见,因此这些词不会得到较高的评分。我认为如果我可以使用POS标记会很有帮助,但我不确定哪个选项对我的应用程序最好。就拿串下面是一个例子:
“在JavaScript,JSON和AJAX专家级能力和JavaScript框架,如jQuery 有深入的了解“ 在这里我要提取这些话:‘JavaScript的’, 'JSON','AJAX','Frameworks','JQuery'],但是当我使用NLTK的POS标记搜索名词时,我会得到'级别','能力','知识'...。 感谢您的帮助。
招聘数据库? –
“所有必要的概念和技巧” - D3,three.js或F#如何“必要”? – user2357112
我不知道为什么这个问题被拒绝投票。 @ user2357112你可能知道,知道诸如F#之类的语言,API和库在任何时候都被列为工作发布的技能,所以我不确定在我的问题中有什么让你感到困惑。 – Mina