rdd

    0热度

    1回答

    我有一个2 RDDs。在Spark scala中,如果他们具有相同的ID,我如何加入event1001RDD和event2009RDD? VAL event1001RDD:schemaRDD = [事件类型,ID,位置,日期1] [1001,4929102,LOC01,2015-01-20 10:44:39] [1001,4929103,LOC02,2015-01-20 10:44:39] [

    3热度

    1回答

    我已经从HBase的转化的RDD: VAL hbaseRDD:RDD [(字符串,数组[字符串])]其中tuple._1是rowkey。而数组是HBase中的值。 4929101-ACTIVE, ["4929101","2015-05-20 10:02:44","dummy1","dummy2"] 4929102-ACTIVE, ["4929102","2015-05-20 10:02:44",

    0热度

    2回答

    我有一个数组,它在封闭内(它有一些值),但在循环外,数组大小为0.我想知道是什么原因导致行为如此? 我需要hArr可以在批处理HBase之外访问。 val hArr = new ArrayBuffer[Put]() rdd.foreach(row => { val hConf = HBaseConfiguration.create() val hTable = new HT

    2热度

    2回答

    正如标题所描述,说我有两个RDDS rdd1 = sc.parallelize([1,2,3]) rdd2 = sc.parallelize([1,0,0]) 或 rdd3 = sc.parallelize([("Id", 1),("Id", 2),("Id",3)]) rdd4 = sc.parallelize([("Result", 1),("Result", 0),("Result"

    1热度

    1回答

    给定两个大的密钥值对RDDS(d1和d2)的RDD,需要映射d1以便使用向量之间的欧几里德距离度量为其每个元素获得d2中最接近的元素的ID。 我还没有找到使用标准RDD转换的方法。据我所知,嵌套RDDS没有在星火允许的,但是,如果有可能,一个简单的解决办法是: d1.map((k,v) => (k, d2.map{case (k2, v2) => val diff = (v - v2); (k2,

    10热度

    2回答

    当我使用“++”来合并很多RDD时,我得到了错误堆栈溢出错误。 Spark版本1.3.1 环境:yarn-client。 - 驱动器内存8G RDD的数量超过4000个。每个RDD都从大小为1 GB的文本文件中读取。 正是在这种方式 val collection = (for ( path <- files ) yield sc.textFile(path)).reduce(_ unio

    0热度

    1回答

    我试图从一个CSV文件读取并将这些条目插入到数据库中。 我发现内部火花创建了两个RDD,即rdd_0_0和rdd_0_1,它对相同的数据起作用并进行所有处理。 任何人都可以帮忙找出为什么调用方法被不同的数据集调用两次。 如果创建了两个数据集/阶段,为什么他们两个都工作在相同的逻辑? 请帮助我确认,如果是这种情况,火花的作品? public final class TestJavaAggregati

    3热度

    3回答

    我使用Spark插入到HBase,但速度很慢。对于60,000条记录,需要2-3分钟。我有大约1000万条记录要保存。 object WriteToHbase extends Serializable { def main(args: Array[String]) { val csvRows: RDD[Array[String] = ... val dateFor

    2热度

    1回答

    Apache Spark支持稀疏数据。 例如,我们可以使用MLUtils.loadLibSVMFile(...)将数据加载到RDD中。 我想知道spark如何处理那些missing values。

    0热度

    1回答

    作为Spark的新手,我一直在寻找他们的python example for estimation of PI。 我有兴趣了解Spark在相同环境下多次重新估计PI的性能。 我观察到的是,在这些重新估计中,PI的值保持不变,并且性能计时似乎表明中间RDD被隐式高速缓存,然后在随后的计算中重新使用。 有什么办法可以配置Spark来控制这种行为,并且中间的RDD总是被重新生成?使用unpersist(