星火：进口数据帧的MongoDB（斯卡拉）

鉴于火花以下数据帧：星火：进口数据帧的MongoDB（斯卡拉）

Name,LicenseID_1,TypeCode_1,State_1,LicenseID_2,TypeCode_2,State_2,LicenseID_3,TypeCode_3,State_3  
"John","123ABC",1,"WA","456DEF",2,"FL","789GHI",3,"CA" 
"Jane","ABC123",5,"AZ","DEF456",7,"CO","GHI789",8,"GA"

我怎么能使用Scala的火花写进去的MongoDB作为文档收集此如下：

{ "Name" : "John", 
    "Licenses" : 
    { 
    [ 
     {"LicenseID":"123ABC","TypeCode":"1","State":"WA" }, 
     {"LicenseID":"456DEF","TypeCode":"2","State":"FL" }, 
     {"LicenseID":"789GHI","TypeCode":"3","State":"CA" } 
    ] 
    } 
}, 

{ "Name" : "Jane", 
    "Licenses" : 
    { 
    [ 
     {"LicenseID":"ABC123","TypeCode":"5","State":"AZ" }, 
     {"LicenseID":"DEF456","TypeCode":"7","State":"CO" }, 
     {"LicenseID":"GHI789","TypeCode":"8","State":"GA" } 
    ] 
    } 
}

我试图做到这一点，但在下面的代码得到块：

val customSchema = StructType(Array(StructField("Name", StringType, true), StructField("LicenseID_1", StringType, true), StructField("TypeCode_1", StringType, true), StructField("State_1", StringType, true), StructField("LicenseID_2", StringType, true), StructField("TypeCode_2", StringType, true), StructField("State_2", StringType, true), StructField("LicenseID_3", StringType, true), StructField("TypeCode_3", StringType, true), StructField("State_3", StringType, true))) 
val license = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").schema(customSchema).load("D:\\test\\test.csv") 
case class License(LicenseID:String, TypeCode:String, State:String) 
case class Data(Name:String, Licenses: Array[License]) 
val transformedData = license.map(data => Data(data(0),Array(License(data(1),data(2),data(3)),License(data(4),data(5),data(6)),License(data(7),data(8),data(9))))) 

<console>:46: error: type mismatch; 
found : Any 
required: String 
     val transformedData = license.map(data => Data(data(0),Array(License(data(1),data(2),data(3)),License(data(4),data(5),data(6)),License(data(7),data(8),data(9))))) 
...

来源

2017-10-17 SYL

请更准确地说明您的问题。也许发布一些你已经试过的代码。 –

正如你所看到的，因为类似的信息（三台单独的许可证信息跨越多个列），我想导入到MongoDB的与“许可证”的文件作为属性名称和值的数组的多列包含每个许可证信息的名称值对的许可证。 – SYL

你有没有试图编写任何代码来做到这一点？如果是这样，请发布并指出问题所在。如果没有，请尝试。 –

不知道什么是你R第，添加例如如何保存数据的火花和芒果

https://docs.mongodb.com/spark-connector/current/
https://docs.mongodb.com/spark-connector/current/scala-api/

进口org.apache.spark.sql.SparkSession 进口com.mongodb.spark.sql._

VAL SC：SparkContext //现有SparkContext。 VAL sparkSession = SparkSession.builder（）。getOrCreate（）

//蒙戈火花辅助 VAL DF = MongoSpark.load（sparkSession）//使用SparkConf

读

sparkSession.loadFromMongoDB() // Uses the SparkConf for configuration 
sparkSession.loadFromMongoDB(ReadConfig(Map("uri" -> "mongodb://example.com/database.collection"))) // Uses the ReadConfig 

sparkSession.read.mongo() 
sparkSession.read.format("com.mongodb.spark.sql").load() 

// Set custom options: 
sparkSession.read.mongo(customReadConfig) 
sparkSession.read.format("com.mongodb.spark.sql").options. 
(customReadConfig.asOptions).load()

所述的连接器提供了持久化数据转换成的MongoDB的能力。

MongoSpark.save(centenarians.write.option("collection", "hundredClub")) 
    MongoSpark.load[Character](sparkSession, ReadConfig(Map("collection" ->

“数据”），有些（ReadConfig（sparkSession））））。节目（）

替代保存数据

dataFrameWriter.write.mongo() 
dataFrameWriter.write.format("com.mongodb.spark.sql").save()

来源

2017-10-19 00:41:21

读取和写入mongo不是我的问题。问题是如何将数据重组（对于类似的数据，例如，从列的关键值对数组），然后将其保存到mongodb的，使其显示如在样品JSON。 – SYL

https://stackoverflow.com/questions/39389700/spark-dataframe-is-saved-to-mongodb-in-wrong-format –

添加的ToString固定的问题，我能以我想要的格式保存到mongodb。（数据=>数据（0）.toString，数组（数据（1）.toString，数据（2）.toString，数据（3）.toString），许可证（数据（4）的ToString，数据（5）的ToString，数据（6）的ToString），许可（数据（7）的ToString，数据（8）的ToString，数据（9）的ToString））））

来源

2017-10-19 16:59:35 SYL

星火：进口数据帧的MongoDB（斯卡拉）

回答

相关问题