0
我在星火(pySpark)和输出连接的两个数据集在VM Cloudera的URL路径看起来喜欢这个的Python:保存加入数据集---
(u'SomeThing', (u'ABC', u'500'))
我想做到以下几点: 定义提取并返回仅ABC功能,500我写了这样的
def extract_lasttwo_cols(three_cols):
a,b,c = three_cols.split(',')
return b,c
功能,但在错误此函数结果“的元组对象没有属性分裂()”
所以, 我想将这个连接的数据集作为文本文件保存在Cloudera VM上HDFS上的一个文件夹中。这是一个单节点虚拟机。我得到此代码的语法错误
joinedatasets.saveAsTextFile("joinSet.txt")
我意识到我们需要将它保存到HDFS URL。我的问题 我们如何找到我需要保存的文件的HDFS url,并且它是保存的适当方法?