的Python：保存加入数据集---

我在星火（pySpark）和输出连接的两个数据集在VM Cloudera的URL路径看起来喜欢这个的Python：保存加入数据集---

 (u'SomeThing', (u'ABC', u'500'))

我想做到以下几点：定义提取并返回仅ABC功能，500我写了这样的

  def extract_lasttwo_cols(three_cols): 
      a,b,c = three_cols.split(',') 
      return b,c

功能，但在错误此函数结果“的元组对象没有属性分裂（）”

所以，我想将这个连接的数据集作为文本文件保存在Cloudera VM上HDFS上的一个文件夹中。这是一个单节点虚拟机。我得到此代码的语法错误

 joinedatasets.saveAsTextFile("joinSet.txt")

我意识到我们需要将它保存到HDFS URL。我的问题我们如何找到我需要保存的文件的HDFS url，并且它是保存的适当方法？

2017-04-15 Raghu

好吧，我只是尝试了以下和它的工作，但稍有不同

  joinedatasets.saveAsTextFile("input/joinSet")

已经得到了保存五个TXT文件被命名为

   part-00000, 
       part-00001 until part-00005

的每个文件

2017-04-15 20:00:56 Raghu

回答