2016-09-23 57 views
0

世界,在Apache Spark Scala中,如何从CSV中填充DataFrame中的Vectors.dense?

我是新来的火花。

我注意到本次网上例子:

http://spark.apache.org/docs/latest/ml-pipeline.html

我很好奇这句法:

// Prepare training data from a list of (label, features) tuples. 
val training = spark.createDataFrame(Seq(
    (1.0, Vectors.dense(0.0, 1.1, 0.1)), 
    (0.0, Vectors.dense(2.0, 1.0, -1.0)), 
    (0.0, Vectors.dense(2.0, 1.3, 1.0)), 
    (1.0, Vectors.dense(0.0, 1.2, -0.5)) 
)).toDF("label", "features") 

是否有可能取代一些语法,从CSV读取值以上的呼叫?

我想要一些与Python-Pandas read_csv()方法相媲美的东西。

+0

是的,你到目前为止尝试过什么? – eliasah

+0

@eliasah并非如此。 'VectorUDT'不能直接用csv表示,可以吗? – zero323

+1

@ zero323它不能直接表示,但很容易做到。但我想知道OP是否尝试了一些东西,或者他只是在寻找一个人来完成他的工作。 – eliasah

回答

0

答案:是的,这是可能的

如果CSV是HDFS,你可以使用火花CSV阅读它:你可以只读取如果用普通斯卡拉普通的文件系统example,或者其:example

+0

有没有一个例子不在注册墙后面? –

相关问题