rdd

    1热度

    3回答

    我创建了一个spark工作,每天从我的hdfs读入一个文本文件,并从文本文件的每一行中提取唯一键。每个文本文件中大约有50000个键。相同的数据然后通过提取的密钥进行过滤并保存到hdfs。 我想在我的hdfs中创建一个目录,其结构为:hdfs://.../date/key,它包含已过滤的数据。问题在于写入hdfs需要很长的时间,因为密钥太多了。 这是写现在的方式: val inputData =

    2热度

    1回答

    如何使用Spark scala遍历下面的RDD。我想要打印Seq中与关联密钥相关的每个值 res1: org.apache.spark.rdd.RDD[(java.lang.String, Seq[java.lang.String])] = MapPartitionsRDD[6] at groupByKey at <console>:14 我试过下面的代码。 val ss=mapfile.ma

    0热度

    1回答

    所以我对函数式编程以及Spark和Scala相当新颖,所以如果这很明显,请原谅我......但基本上我有一个HDFS文件列表,一定的标准,即是这样的: val List = ( "hdfs:///hive/some.db/BigAssHiveTable/partyear=2014/partmonth=06/partday=01/000140_0", "hdfs:///hive/some.db/B

    81热度

    3回答

    RDD'smap和mapPartitions方法有什么区别? flatMap的行为如同map还是像mapPartitions?谢谢。 (编辑) 即有什么区别(无论是语义或执行方面) def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { r