我对R和Spark都是新手,但我试图创建一个可扩展的R应用程序来检测用户执行的增加/减少查询。使用Spark和R进行时间序列趋势检测
我必须包含以下格式数据的星火据帧:
+-------+------------------------+-------------------------+
| user | query | query_time |
+-------+------------------------+-------------------------+
| user1 | Hp tablet | 2011-08-21T11:07:57.346 |
| user2 | Hp tablet | 2011-08-21T22:22:32.599 |
| user3 | Hp tablet | 2011-08-22T19:08:57.412 |
| user4 | hp laptop | 2011-09-05T15:33:31.489 |
| user5 | Samsung LCD 550 | 2011-09-01T10:28:33.547 |
| user6 | memory stick | 2011-09-06T17:15:42.852 |
| user7 | Castle | 2011-08-28T22:06:37.618 |
+-------+------------------------+-------------------------+
这个数据集有数百行的万。我需要能够以某种方式形象化,例如,“hp tablet”正在呈现趋势。
我已经看了一些库(例如Breakout Detection,Anomaly Detection和this question),可以帮助我实现这一点,但我不知道他们是否有火花发挥出色。如果他们这样做,我找不到有关如何编程的例子。
我正在使用R版本3.4.0和SparkR版本2.1.0,在Zeppelin笔记本上运行。
有没有人有任何想法?我也接受任何其他方法。 谢谢!
%sql
select * from temp_query
屏幕2::上面创建
嗨@Arun,非常感谢您的详细解答。 因为我是Spark新手,这已经帮助我理解了一些东西,但我认为它不能回答我原来的问题。 我需要知道随着时间的推移哪些查询会越来越流行,所以X轴应该是时间序列。我在想,也许[这个突破检测库](https://github.com/twitter/BreakoutDetection)会诀窍,但我不知道如何将它与SparkR一起使用。 –