0
我有一个由“Events”,“Time”,“UserId”组成的日志文件。用pySpark计算用户事件之间的平均时间
+------------+----------------+---------+
| Events | Time | UserId |
+------------+----------------+---------+
| ClickA | 7/6/16 10:00am | userA |
+------------+----------------+---------+
| ClickB | 7/6/16 12:00am | userA |
+------------+----------------+---------+
我想为每个用户计算事件之间的平均时间。你们如何解决这个问题? 在传统的编程环境中,我会经历用户的每个事件,并计算事件n和n-1之间的时间增量,将此值添加到数组A.然后,我将计算每个值的平均值A. 如何使用Spark做到这一点?
谢谢zero323! 你知道我该如何将这个字符串(2016/5/1 4:03:34 PM)转换为时间戳吗?我找不到pyspark的正确方法。 – Ahmet
非常像这里显示:http://stackoverflow.com/a/36095322/1560062但你必须调整格式(https://docs.oracle.com/javase/7/docs/api/java/text /SimpleDateFormat.html) – zero323