我使用上Pyspark以下代码导入从BigQuery资料:RDD JSON文件处理
table_data = sc.newAPIHadoopRDD(
'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat',
'org.apache.hadoop.io.LongWritable',
'com.google.gson.JsonObject',
conf=conf)
输出是RDD框架,但具有在JSON格式数据:
[(0, u'{"colA":"Value1,Value4"}'), (52, u'{"colA":"Value2"}')]
我需要以RDD格式提取所有值。主要关注的是由此产生的RDD不应该包含每个记录的双引号。
要求:
Value1,Value4
Value2
,而不是:
"Value1,Value4"
"Value2"
你能告诉你的结果在一个有效的Python数据结构?你是否需要返回另一个rdd? – Psidom
我需要一个RDD,因为我将使用MLlib来实现算法。 – Nivi
如果json被一个“,”分开,那么它的返回类型将是'str'。你怎么知道每个'Value'的类型,比如float,int,str等等? –