rdd

0热度

1回答

我有一个2 RDDs。在Spark scala中，如果他们具有相同的ID，我如何加入event1001RDD和event2009RDD？ VAL event1001RDD：schemaRDD = [事件类型，ID，位置，日期1] [1001,4929102,LOC01,2015-01-20 10:44:39] [1001,4929103,LOC02,2015-01-20 10:44:39] [

3热度

1回答

火花RDD发现通过键

我已经从HBase的转化的RDD： VAL hbaseRDD：RDD [（字符串，数组[字符串]）]其中tuple._1是rowkey。而数组是HBase中的值。 4929101-ACTIVE, ["4929101","2015-05-20 10:02:44","dummy1","dummy2"] 4929102-ACTIVE, ["4929102","2015-05-20 10:02:44",

0热度

2回答

数组火花关闭

我有一个数组，它在封闭内（它有一些值），但在循环外，数组大小为0.我想知道是什么原因导致行为如此？我需要hArr可以在批处理HBase之外访问。 val hArr = new ArrayBuffer[Put]() rdd.foreach(row => { val hConf = HBaseConfiguration.create() val hTable = new HT

2热度

2回答

加入两（非）配对RDDS做一个数据帧

正如标题所描述，说我有两个RDDS rdd1 = sc.parallelize([1,2,3]) rdd2 = sc.parallelize([1,0,0]) 或 rdd3 = sc.parallelize([("Id", 1),("Id", 2),("Id",3)]) rdd4 = sc.parallelize([("Result", 1),("Result", 0),("Result"

1热度

1回答

火花：如何映射二者组成独特<em>ID</em>键和<em>矢量</em>值（例如<code>RDD[Int,DenseVector]</code>），I当需要访问另一RDD

给定两个大的密钥值对RDDS（d1和d2）的RDD，需要映射d1以便使用向量之间的欧几里德距离度量为其每个元素获得d2中最接近的元素的ID。我还没有找到使用标准RDD转换的方法。据我所知，嵌套RDDS没有在星火允许的，但是，如果有可能，一个简单的解决办法是： d1.map((k,v) => (k, d2.map{case (k2, v2) => val diff = (v - v2); (k2,

10热度

2回答

Spark当联合很多RDD引发堆栈溢出错误

当我使用“++”来合并很多RDD时，我得到了错误堆栈溢出错误。 Spark版本1.3.1 环境：yarn-client。 - 驱动器内存8G RDD的数量超过4000个。每个RDD都从大小为1 GB的文本文件中读取。正是在这种方式 val collection = (for ( path <- files ) yield sc.textFile(path)).reduce(_ unio

0热度

1回答

spark是否会创建两个数据集或工作于相同逻辑的阶段？

我试图从一个CSV文件读取并将这些条目插入到数据库中。我发现内部火花创建了两个RDD，即rdd_0_0和rdd_0_1，它对相同的数据起作用并进行所有处理。任何人都可以帮忙找出为什么调用方法被不同的数据集调用两次。如果创建了两个数据集/阶段，为什么他们两个都工作在相同的逻辑？请帮助我确认，如果是这种情况，火花的作品？ public final class TestJavaAggregati

3热度

3回答

Spark插入到HBase慢

我使用Spark插入到HBase，但速度很慢。对于60,000条记录，需要2-3分钟。我有大约1000万条记录要保存。 object WriteToHbase extends Serializable { def main(args: Array[String]) { val csvRows: RDD[Array[String] = ... val dateFor

2热度

1回答

火花如何处理缺失值？

Apache Spark支持稀疏数据。例如，我们可以使用MLUtils.loadLibSVMFile(...)将数据加载到RDD中。我想知道spark如何处理那些missing values。

0热度

1回答

如何通过Spark控制RDD的隐式缓存？

作为Spark的新手，我一直在寻找他们的python example for estimation of PI。我有兴趣了解Spark在相同环境下多次重新估计PI的性能。我观察到的是，在这些重新估计中，PI的值保持不变，并且性能计时似乎表明中间RDD被隐式高速缓存，然后在随后的计算中重新使用。有什么办法可以配置Spark来控制这种行为，并且中间的RDD总是被重新生成？使用unpersist（