计算语言学项目使用Hadoop MapReduce的想法

我需要做一个关于计算语言学课程的项目。是否有任何有趣的“语言学”问题需要足够的数据来处理使用Hadoop map reduce。解决方案或算法应该尝试分析并提供“lingustic”域的一些见解。但它应该适用于大数据集，以便我可以使用hadoop。我知道有一个用于hadoop的python自然语言处理工具包。计算语言学项目使用Hadoop MapReduce的想法

来源

2010-03-01 Aditya Andhalikar

如果您在某些“非常规”语言（在“已经执行了有限数量的计算语言学的语言”的意义上）中拥有大型语料库，重复已经为非常流行的语言（例如英语，中文，阿拉伯语......）是一个非常合适的项目（特别是在学术环境中，但它也可能非常适合工业领域 - 当我在IBM Research进行计算语言学时，将意大利语语料库和重复[[在罗马相对较新的IBM科学中心]]的工作非常类似于英国的Yorktown Heights [我已参与其中]的IBM研究团队所做的工作。

硬工作通常是找到/准备这样的语料库（尽管IBM意大利全心全意帮助我与拥有相关数据的出版公司联系，但这绝对是我当时工作中最重要的部分）。

所以，这个问题很重要，只有你可以回答它：你有哪些语料库可以访问，或者可以访问（和清理等），特别是在“非常规”语言中？如果你所能做的只是例如英语，使用已经流行的语料库，那么做新颖而有趣的工作的机会当然更难，虽然当然可能会有一些。

顺便说一句，我假设你严格考虑处理“书面”文本，对吧？如果你有中语料库口语材料（最好与良好的成绩单），机会是无穷的（还没有关于处理文字对白少得多的工作，如参数化在同一个书面文字由不同的母语发音变种 - 的确，这些问题往往不在提及在本科CL课程！）。

来源

2010-03-01 03:11:17

想法是不错，但我找了一个月或最多半月的项目一个相当短的时间框架。有任何想法吗？我在考虑如果大规模文档的文档分类可能是一个好主意。 – 2010-03-02 20:32:48

@Aditya，没有我所要求的重要澄清（您可以使用哪些大型语料库进行这项工作，特别是在较少探索的语言中？），提供*相关*建议是不可能的。我不明白为什么你选择不回答“这个问题”，这个问题“很大”，正如我在上面的第3段所述。 – 2010-03-02 22:33:14

正如您所说，有一个称为NLTK的Python工具包，可以与dumbo一起使用以利用Hadoop。

PyCon 2010就这个问题进行了很好的讨论。您可以使用下面的链接访问讲话中的幻灯片。

The Python and the Elephant: Large Scale Natural Language Processing with NLTK and Dumbo

来源

2010-03-01 07:05:22

为60K OA论文下载300M的话由生物医学中心出版。尝试发现命题态度和相关的情感建构。要点在于生物医学文献充斥着对冲和相关的构造，因为很难对生物世界及其生物 - 它们的形式和功能以及遗传学和生物化学作出平坦的陈述性陈述。

我对Hadoop的感受是它是一个需要考虑的工具，但是在完成设定目标的重要任务后要考虑。你的目标，策略和数据应该决定你如何进行计算。当心锤子寻找研究钉子的方法。

这是我的实验室努力工作的一部分。在CL

鲍勃Futrelle

BioNLP.org

东北大学

来源

2010-03-01 14:30:38

一个计算密集型的问题是从推断大语料库语义。其基本思想是获取大量文本并从其分布中推断出单词（同义词，反义词，下位词，上位词等）之间的语义关系，即它们出现或接近的单词。

这涉及到大量的数据预处理，然后可能涉及许多最近邻居搜索和N×N比较，这些比较非常适合MapReduce式并行化。

看一看这个教程：

http://wordspace.collocations.de/doku.php/course:acl2010:start

来源

2010-10-28 23:08:10 mrjf

计算语言学项目使用Hadoop MapReduce的想法

回答

相关问题