2013-05-08 67 views
1

我有一个关于分块阿拉伯文本的项目 我想知道是否可以使用NLTK来提取阿拉伯文本的块,NP,VP,PP以及如何使用阿拉伯语语料库。 请任何人帮助我!使用nltk分块阿拉伯文本

+0

我可以生成我自己的Speach部分吗?或者我可以使用标记文字... – dooja 2013-05-08 08:58:00

回答

1

它远非完美(很大程度上是因为阿拉伯语的语言属性与英语的语言属性显着不同),但a computer science student developed an Arabic language analysis toolkit in 2011看起来很有希望。他开发了“一个由词性标注器和形态分析器组成的综合解决方案,该工具包在古典阿拉伯语上进行了培训,并在现代标准阿拉伯语的示例文本上进行了测试。”我认为这个工具的局限性在于训练集是经典的,而测试集是MSA。

该论文是一个很好的开始,因为它解决了现有的工具及其相对的成功(和缺点)。我也强烈推荐this 2010 paper这看起来像一个杰出的参考。它是also available as a book in print or electronic format

此外,作为个人笔记,我希望看到一位母语为NLP的人士使用Google ta3reeb(可作为Java open source utility)开发更好的工具和库。只是我的一些想法,我对阿拉伯语NLP的实际经验非常有限。有很多公司开发了应用阿拉伯语NLP原则的搜索解决方案,尽管他们的许多工作可能是专有的(例如,我知道Basis Technologyworked with this相当广泛;我不以任何方式隶属于Basis我也没有去过)。