2013-08-28 27 views
0

使用Hadoop(或猪或Hive)生成时间序列的最简单方法是什么?或者我可以在哪里获得有关正确功能的信息?如何使用Hadoop生成时间序列?

例如,我想从01/01/2000 00:00:00到2010年12月31日23:59:59产生一个1秒的序列。

与其他程序,比如R,很简单,因为它们有许多功能可以处理日期和时间。

问候

回答

0

当你发现它有R这么简单,你为什么不利用Hadoop Streaming? :)

AFAIK,没有这样做的OOTB功能。正如你已经提到的,R有很多很酷的内置函数,你可以在你的流媒体MR作业中使用它。

+0

嗨。因为我想生成(并使用)非常大的系列(比这个例子大10或100倍,甚至同时进行多个系列),这不能适应内存,这就是为什么我想用hadoop进行尝试的原因。 – skan

+0

后来我会进行协整,系列聚合... – skan

+0

你好。 Hadoop流媒体不过是Hadoop的MapReduce。只是你用一些非java语言编写你的工作。 – Tariq

1

您可以使用空的map()方法编写一个映射器。在cleanup()方法中,使用几个java包(例如Joda)中的任何一个来帮助迭代并格式化时间戳,然后将它们写入上下文。