在Apache Spark Scala中，如何从CSV中填充DataFrame中的Vectors.dense？

世界，在Apache Spark Scala中，如何从CSV中填充DataFrame中的Vectors.dense？

我是新来的火花。

我注意到本次网上例子：

http://spark.apache.org/docs/latest/ml-pipeline.html

我很好奇这句法：

// Prepare training data from a list of (label, features) tuples. 
val training = spark.createDataFrame(Seq(
    (1.0, Vectors.dense(0.0, 1.1, 0.1)), 
    (0.0, Vectors.dense(2.0, 1.0, -1.0)), 
    (0.0, Vectors.dense(2.0, 1.3, 1.0)), 
    (1.0, Vectors.dense(0.0, 1.2, -0.5)) 
)).toDF("label", "features")

是否有可能取代一些语法，从CSV读取值以上的呼叫？

我想要一些与Python-Pandas read_csv（）方法相媲美的东西。

来源

2016-09-23 user3676943

是的，你到目前为止尝试过什么？ – eliasah

@eliasah并非如此。 'VectorUDT'不能直接用csv表示，可以吗？ – zero323

@ zero323它不能直接表示，但很容易做到。但我想知道OP是否尝试了一些东西，或者他只是在寻找一个人来完成他的工作。 – eliasah

答案：是的，这是可能的

如果CSV是HDFS，你可以使用火花CSV阅读它：你可以只读取如果用普通斯卡拉普通的文件系统example，或者其：example

来源

2016-09-23 06:38:12

有没有一个例子不在注册墙后面？ –

在Apache Spark Scala中，如何从CSV中填充DataFrame中的Vectors.dense？

回答

相关问题