2013-03-21 62 views
-1

我是hadoop和mapreduce的新手。我在hadoop Mapreduce中运行数据时遇到问题。我想要以毫秒为单位给出结果。有什么方法可以在毫秒内执行我的Mapreduce作业吗? 如果不是,那么hadoop mapreduce在完全分布式多群集(5-6个节点)中可以采用的最短时间是多少。 要在hadoop mapreduce中分析的文件大小约为50-100Mb 程序是用Pig.Any suggesstions编写的?MapReduce作业所花费的时间

+0

得到一个真的非常非常快的电脑。 – 2013-03-21 19:15:30

+0

感谢您的建议。 – 2013-03-22 04:15:47

回答

0

这是不可能的(afaik)。 hadoop并不意味着实时的东西。它最适合批量作业。 mapreduce框架需要一些时间来接受和设置工作,这是你无法避免的。我不认为这是一个明智的决定,让超高端机器建立一个hadoop集群。另外,框架在实际开始工作之前还必须做一些事情,比如创建数据的逻辑分割。

+0

感谢您的建议。 – 2013-03-22 04:15:18

1

用于即时查询数据使用Imapala,Apache Drill(WIP)。演习根据Google Dremel

Hive作业被转换成MapReduce,因此Hive也是批处理方式,而不是实时的。尽管如此,许多工作正在改进Hive的性能(12)。