我是Scala的新手,为了对大数据集执行一些分析,我必须使用Scala和Spark的SQL,Mllib和GraphX。我想要做的分析是:Spark上的数据分析Scala
- 客户生命周期价值(CLV)
- 掌措施(度,特征向量,边缘介, 亲近)的数据是一个CSV文件(60GB(3年跨国数据))位于Hadoop集群中的 。
我的问题是关于访问数据和执行上述计算的最佳方法?
- 我应该将CSV文件中的数据加载到数据框中,并在 上处理数据帧吗?或
- 我应该从CSV文件加载数据并将其转换为RDD和 然后在RDD上工作?或
- 是否有任何其他方法来访问数据并执行分析?
预先感谢您这么多的帮助..
dataframes的有些类型安全的版本是数据集,这是推荐的,因为更好的数据压缩的API。对于类型安全问题,有https://github.com/adelbertc/frameless/ – Reactormonk