我需要做一个关于计算语言学课程的项目。是否有任何有趣的“语言学”问题需要足够的数据来处理使用Hadoop map reduce。解决方案或算法应该尝试分析并提供“lingustic”域的一些见解。但它应该适用于大数据集,以便我可以使用hadoop。我知道有一个用于hadoop的python自然语言处理工具包。计算语言学项目使用Hadoop MapReduce的想法
回答
如果您在某些“非常规”语言(在“已经执行了有限数量的计算语言学的语言”的意义上)中拥有大型语料库,重复已经为非常流行的语言(例如英语,中文,阿拉伯语......)是一个非常合适的项目(特别是在学术环境中,但它也可能非常适合工业领域 - 当我在IBM Research进行计算语言学时,将意大利语语料库和重复[[在罗马相对较新的IBM科学中心]]的工作非常类似于英国的Yorktown Heights [我已参与其中]的IBM研究团队所做的工作。
硬工作通常是找到/准备这样的语料库(尽管IBM意大利全心全意帮助我与拥有相关数据的出版公司联系,但这绝对是我当时工作中最重要的部分)。
所以,这个问题很重要,只有你可以回答它:你有哪些语料库可以访问,或者可以访问(和清理等),特别是在“非常规”语言中?如果你所能做的只是例如英语,使用已经流行的语料库,那么做新颖而有趣的工作的机会当然更难,虽然当然可能会有一些。
顺便说一句,我假设你严格考虑处理“书面”文本,对吧?如果你有中语料库口语材料(最好与良好的成绩单),机会是无穷的(还没有关于处理文字对白少得多的工作,如参数化在同一个书面文字由不同的母语发音变种 - 的确,这些问题往往不在提及在本科CL课程!)。
正如您所说,有一个称为NLTK的Python工具包,可以与dumbo一起使用以利用Hadoop。
PyCon 2010就这个问题进行了很好的讨论。您可以使用下面的链接访问讲话中的幻灯片。
为60K OA论文下载300M的话由生物医学中心出版。尝试发现命题态度和相关的情感建构。要点在于生物医学文献充斥着对冲和相关的构造,因为很难对生物世界及其生物 - 它们的形式和功能以及遗传学和生物化学作出平坦的陈述性陈述。
我对Hadoop的感受是它是一个需要考虑的工具,但是在完成设定目标的重要任务后要考虑。你的目标,策略和数据应该决定你如何进行计算。当心锤子寻找研究钉子的方法。
这是我的实验室努力工作的一部分。在CL
鲍勃Futrelle
BioNLP.org
东北大学
一个计算密集型的问题是从推断大语料库语义。其基本思想是获取大量文本并从其分布中推断出单词(同义词,反义词,下位词,上位词等)之间的语义关系,即它们出现或接近的单词。
这涉及到大量的数据预处理,然后可能涉及许多最近邻居搜索和N×N比较,这些比较非常适合MapReduce式并行化。
看一看这个教程:
http://wordspace.collocations.de/doku.php/course:acl2010:start
- 1. 使用Hadoop MapReduce的项目构想
- 2. 矩阵计算使用hadoop mapreduce
- 3. 自然语言处理 - 初学者项目的想法
- 4. hadoop mapreduce距离计算
- 5. 在项目中学习语言?
- 6. 布尔计算器语言的语法
- 7. 使计算器使用C语言
- 8. Hadoop MapReduce appcache目录
- 9. 使用高级着色语言的计算算法
- 10. 计算的sin(x)使用Fortran语言
- 11. 在hadoop mapReduce项目下设置pom.xml
- 12. ANTLR /语法问题:计算器语言
- 13. 计算C语言
- 14. Intellij想法中的同一项目中的多种语言
- 15. 途径学习算法使用特定语言
- 16. 理想的语言使用?
- 17. 无法使用Eclipse创建MapReduce项目
- 18. 语法语法和语言学
- 19. 从哪里开始想要学习特定项目的编程语言?
- 20. 使用的语法与访客计算数学表达式
- 21. 编程语言项目使用方案
- 22. 如何设置intellij想法多语言项目
- 23. 你如何使用MapReduce/Hadoop?
- 24. 寻找计算机视觉中的课堂项目的想法
- 25. 科学计算软件的管理语言
- 26. hadoop mapreduce
- 27. C#语言,计算器
- 28. 最佳格言计算机科学
- 29. 用于非MapReduce算法的Hadoop集群并行
- 30. 我想使用Hadoop MapReduce来计算文本文件中“对单词”的出现次数
想法是不错,但我找了一个月或最多半月的项目一个相当短的时间框架。有任何想法吗?我在考虑如果大规模文档的文档分类可能是一个好主意。 – 2010-03-02 20:32:48
@Aditya,没有我所要求的重要澄清(您可以使用哪些大型语料库进行这项工作,特别是在较少探索的语言中?),提供*相关*建议是不可能的。我不明白为什么你选择不回答“这个问题”,这个问题“很大”,正如我在上面的第3段所述。 – 2010-03-02 22:33:14