我在Ubuntu 11.04机处理与7+万线(〜59 MB)的文件具有这种配置:最大文件大小“伪分布式”模式
即使经过Intel(R) Core(TM)2 Duo CPU E8135 @ 2.66GHz, 2280 MHz Memory: 2GB Disk: 100GB
运行45分钟,我没有看到任何进展。
Deleted hdfs://localhost:9000/user/hadoop_admin/output packageJobJar: [/home/hadoop_admin/Documents/NLP/Dictionary/dict/drugs.csv, /usr/local/hadoop/mapper.py, /usr/local/hadoop/reducer.py, /tmp/hadoop-hadoop_admin/hadoop-unjar8773176795802479000/] [] /tmp/streamjob582836411271840475.jar tmpDir=null 11/07/22 10:39:20 INFO mapred.FileInputFormat: Total input paths to process : 1 11/07/22 10:39:21 INFO streaming.StreamJob: getLocalDirs(): [/tmp/hadoop-hadoop_admin/mapred/local] 11/07/22 10:39:21 INFO streaming.StreamJob: Running job: job_201107181559_0099 11/07/22 10:39:21 INFO streaming.StreamJob: To kill this job, run: 11/07/22 10:39:21 INFO streaming.StreamJob: /usr/local/hadoop/bin/../bin/hadoop job -Dmapred.job.tracker=localhost:9001 -kill job_201107181559_0099 11/07/22 10:39:21 INFO streaming.StreamJob: Tracking URL: http://localhost:50030/jobdetails.jsp?jobid=job_201107181559_0099 11/07/22 10:39:22 INFO streaming.StreamJob: map 0% reduce 0%
什么是可以在pseudo distributed
模式下使用Hadoop
被处理的最大可能的文件大小。
更新时间:
我做使用Hadoop Streaming
一个简单的单词计数应用。我的mapper.py
和reducer.py
花费了大约50 Sec
来处理220K行(〜19MB)的文件。