0
我是Spark的新手,我试图弄清楚使用它进行数据科学的过程是什么。具体来说,我知道如何从现有数据中创建数据框,然后执行一些分析。在现有数据框上运行ML算法
现在我想了解如何在已经在数据框中的数据上运行ML算法。当我查看ML文档时,我发现Dataframes是由Vector(稠密或稀疏)创建的,但这与我现有的数据框不同。我想知道如何将具有多个列的现有数据框转换为单个列放入向量中的数据框?
当尝试执行探索性分析和一些绘图,然后在同一数据帧上执行ML时,通常的过程是什么?