Spark上的数据分析Scala

我是Scala的新手，为了对大数据集执行一些分析，我必须使用Scala和Spark的SQL，Mllib和GraphX。我想要做的分析是：Spark上的数据分析Scala

我的问题是关于访问数据和执行上述计算的最佳方法？

预先感谢您这么多的帮助..

2016-09-25 Max Marsh

数据框让你喜欢的sql语法与在作为RDD给斯卡拉收集像数据处理方法的数据进行工作。

Dataframes的一个额外好处是底层的sprak系统将优化您的查询，就像sql查询优化一样。这在RDD的情况下不可用。

如你是新来的Scala公司强烈推荐最初使用Dataframes API，然后拿起RDD API以后根据需求。

2016-09-25 15:28:05 pamu

dataframes的有些类型安全的版本是数据集，这是推荐的，因为更好的数据压缩的API。对于类型安全问题，有https://github.com/adelbertc/frameless/ – Reactormonk

您可以使用Databricks CSV reader API，它易于使用，并返回DataFrame。它会自动推断数据类型。如果你通过头文件传递它可以自动使用它作为架构，否则你可以使用StructType构造架构。

https://github.com/databricks/spark-csv

更新： 如果您正在使用的Spark 2.0版本，默认情况下它支持CSV数据源，请参阅以下链接。

2016-09-25 16:39:27 Shankar

回答