rdd

1热度

3回答

我创建了一个spark工作，每天从我的hdfs读入一个文本文件，并从文本文件的每一行中提取唯一键。每个文本文件中大约有50000个键。相同的数据然后通过提取的密钥进行过滤并保存到hdfs。我想在我的hdfs中创建一个目录，其结构为：hdfs：//.../date/key，它包含已过滤的数据。问题在于写入hdfs需要很长的时间，因为密钥太多了。这是写现在的方式： val inputData =

2热度

1回答

Spark scala RDD遍历

如何使用Spark scala遍历下面的RDD。我想要打印Seq中与关联密钥相关的每个值 res1: org.apache.spark.rdd.RDD[(java.lang.String, Seq[java.lang.String])] = MapPartitionsRDD[6] at groupByKey at <console>:14 我试过下面的代码。 val ss=mapfile.ma

0热度

1回答

在Spark中构建一个在Scala中递归联合的RDD

所以我对函数式编程以及Spark和Scala相当新颖，所以如果这很明显，请原谅我......但基本上我有一个HDFS文件列表，一定的标准，即是这样的： val List = ( "hdfs:///hive/some.db/BigAssHiveTable/partyear=2014/partmonth=06/partday=01/000140_0", "hdfs:///hive/some.db/B

81热度

3回答

Apache Spark：map vs mapPartitions？

RDD'smap和mapPartitions方法有什么区别？ flatMap的行为如同map还是像mapPartitions？谢谢。（编辑）即有什么区别（无论是语义或执行方面） def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { r