如何使用Hadoop生成时间序列？

使用Hadoop（或猪或Hive）生成时间序列的最简单方法是什么？或者我可以在哪里获得有关正确功能的信息？如何使用Hadoop生成时间序列？

例如，我想从01/01/2000 00:00:00到2010年12月31日23:59:59产生一个1秒的序列。

与其他程序，比如R，很简单，因为它们有许多功能可以处理日期和时间。

问候

2013-08-28 skan

当你发现它有R这么简单，你为什么不利用Hadoop Streaming？ :)

AFAIK，没有这样做的OOTB功能。正如你已经提到的，R有很多很酷的内置函数，你可以在你的流媒体MR作业中使用它。

2013-08-28 14:34:40 Tariq

嗨。因为我想生成（并使用）非常大的系列（比这个例子大10或100倍，甚至同时进行多个系列），这不能适应内存，这就是为什么我想用hadoop进行尝试的原因。 – skan

后来我会进行协整，系列聚合... – skan

你好。 Hadoop流媒体不过是Hadoop的MapReduce。只是你用一些非java语言编写你的工作。 – Tariq

您可以使用空的map（）方法编写一个映射器。在cleanup（）方法中，使用几个java包（例如Joda）中的任何一个来帮助迭代并格式化时间戳，然后将它们写入上下文。

2014-05-01 04:10:20

回答