2017-04-15 32 views
0

我在星火(pySpark)和输出连接的两个数据集在VM Cloudera的URL路径看起来喜欢这个的Python:保存加入数据集---

 (u'SomeThing', (u'ABC', u'500')) 

我想做到以下几点: 定义提取并返回仅ABC功能,500我写了这样的

  def extract_lasttwo_cols(three_cols): 
      a,b,c = three_cols.split(',') 
      return b,c 

功能,但在错误此函数结果“的元​​组对象没有属性分裂()”

所以, 我想将这个连接的数据集作为文本文件保存在Cloudera VM上HDFS上的一个文件夹中。这是一个单节点虚拟机。我得到此代码的语法错误

 joinedatasets.saveAsTextFile("joinSet.txt") 

我意识到我们需要将它保存到HDFS URL。我的问题 我们如何找到我需要保存的文件的HDFS url,并且它是保存的适当方法?

回答

0

好吧,我只是尝试了以下和它的工作,但稍有不同

  joinedatasets.saveAsTextFile("input/joinSet") 

已经得到了保存五个TXT文件被命名为

   part-00000, 
       part-00001 until part-00005 
的每个文件