2010-03-01 33 views
3

我需要做一个关于计算语言学课程的项目。是否有任何有趣的“语言学”问题需要足够的数据来处理使用Hadoop map reduce。解决方案或算法应该尝试分析并提供“lingustic”域的一些见解。但它应该适用于大数据集,以便我可以使用hadoop。我知道有一个用于hadoop的python自然语言处理工具包。计算语言学项目使用Hadoop MapReduce的想法

回答

2

如果您在某些“非常规”语言(在“已经执行了有限数量的计算语言学的语言”的意义上)中拥有大型语料库,重复已经为非常流行的语言(例如英语,中文,阿拉伯语......)是一个非常合适的项目(特别是在学术环境中,但它也可能非常适合工业领域 - 当我在IBM Research进行计算语言学时,将意大利语语料库和重复[[在罗马相对较新的IBM科学中心]]的工作非常类似于英国的Yorktown Heights [我已参与其中]的IBM研究团队所做的工作。

硬工作通常是找到/准备这样的语料库(尽管IBM意大利全心全意帮助我与拥有相关数据的出版公司联系,但这绝对是我当时工作中最重要的部分)。

所以,这个问题很重要,只有你可以回答它:你有哪些语料库可以访问,或者可以访问(和清理等),特别是在“非常规”语言中?如果你所能做的只是例如英语,使用已经流行的语料库,那么做新颖而有趣的工作的机会当然更难,虽然当然可能会有一些。

顺便说一句,我假设你严格考虑处理“书面”文本,对吧?如果你有中语料库口语材料(最好良好的成绩单),机会是无穷的(还没有关于处理文字对白少得多的工作,如参数化在同一个书面文字由不同的母语发音变种 - 的确,这些问题往往不在提及在本科CL课程!)。

+0

想法是不错,但我找了一个月或最多半月的项目一个相当短的时间框架。有任何想法吗?我在考虑如果大规模文档的文档分类可能是一个好主意。 – 2010-03-02 20:32:48

+0

@Aditya,没有我所要求的重要澄清(您可以使用哪些大型语料库进行这项工作,特别是在较少探索的语言中?),提供*相关*建议是不可能的。我不明白为什么你选择不回答“这个问题”,这个问题“很大”,正如我在上面的第3段所述。 – 2010-03-02 22:33:14

2

为60K OA论文下载300M的话由生物医学中心出版。尝试发现命题态度和相关的情感建构。要点在于生物医学文献充斥着对冲和相关的构造,因为很难对生物世界及其生物 - 它们的形式和功能以及遗传学和生物化学作出平坦的陈述性陈述。

我对Hadoop的感受是它是一个需要考虑的工具,但是在完成设定目标的重要任务后要考虑。你的目标,策略和数据应该决定你如何进行计算。当心锤子寻找研究钉子的方法。

这是我的实验室努力工作的一部分。在CL

  • 鲍勃Futrelle

    BioNLP.org

    东北大学

2

一个计算密集型的问题是从推断大语料库语义。其基本思想是获取大量文本并从其分布中推断出单词(同义词,反义词,下位词,上位词等)之间的语义关系,即它们出现或接近的单词。

这涉及到大量的数据预处理,然后可能涉及许多最近邻居搜索和N×N比较,这些比较非常适合MapReduce式并行化。

看一看这个教程:

http://wordspace.collocations.de/doku.php/course:acl2010:start