2016-12-28 38 views
0

我是Spark的新手,我试图弄清楚使用它进行数据科学的过程是什么。具体来说,我知道如何从现有数据中创建数据框,然后执行一些分析。在现有数据框上运行ML算法

现在我想了解如何在已经在数据框中的数据上运行ML算法。当我查看ML文档时,我发现Dataframes是由Vector(稠密或稀疏)创建的,但这与我现有的数据框不同。我想知道如何将具有多个列的现有数据框转换为单个列放入向量中的数据框?

当尝试执行探索性分析和一些绘图,然后在同一数据帧上执行ML时,通常的过程是什么?

回答

1
  • org.apache.spark.ml.feature/pyspark.ml.feature含有大量的特征提取工具被广泛记载(Extracting, transforming and selecting features
  • Spark是不适合于探索性数据分析。通常,您可以使用Spark使用独立的本地工具对数据进行采样/清理/汇总和收集数据。商业环境(如Databricks)和一些开源库(如Apache Zeppelin)提供的有限工具可直接用于收集的结果。
相关问题