我非常喜欢点火,并且想要就如何解决以下问题提供建议。火花中的时间序列计算
我的蜡烛数据(高,低,开,关)在一年中的一个交易日的每一分钟。这代表大约360,000个数据点。
我想要做的是在数据(可能每个数据点)上运行一些模拟,我想要给定的数据点,获取以前(或下一个)x个数据点,然后运行一些代码横跨那个给结果。
理想情况下,这将是一个映射样式函数,但不能在Spark中执行嵌套操作。我可以考虑的唯一方法就是创建一个Candle的DataSet作为关键字,并将相关数据进行非标准化或将其分配到每个关键字上 - 无论哪种方式似乎效率都不高。
理想情况下,我正在寻找的东西(蜡烛,列表) - >双或类似的东西。
我相信有更好的方法。
我正在使用Spark 2.1.0并使用Yarn作为调度引擎。
谢谢你的回答,虽然我不能标记正确,但我理解你的理论基础,并且已经实施了一些可以使数据无法正常分析的内容。这种逻辑不起作用是令人遗憾的,但我现在明白为什么它是这种情况。 –