2017-10-14 51 views
0

我是Scala和Spark的新手。我试图删除文本文件的重复行。 每行包含三列(矢量值),如:-4.5,-4.2,2.7Scala地图过滤方法

这是我的计划:

import org.apache.spark.SparkContext 
import org.apache.spark.SparkConf 
import org.apache.spark.rdd.RDD 
import scala.collection.mutable.Map 

object WordCount { 

def main(args: Array[String]) { 

    val conf = new SparkConf().setAppName("WordCount").setMaster("local[*]") 
    val sc = new SparkContext(conf) 
    val input = sc.textFile("/opt/spark/WC/WC_input.txt") 

    val keys = input.flatMap(line => line.split("/n")) 

    val singleKeys = keys.distinct 

    singleKeys.foreach(println) 
} 
} 

它的工作原理,但我想知道是否有办法采用过滤功能。我必须在我的程序中使用它,但我不知道如何在所有行中进行迭代并删除重复项(例如使用循环)。

如果有人有一个想法,会很棒!

谢谢!

回答

1

我认为使用filter这样做不会是一个非常有效的解决方案。对于每个元素,您都必须查看该元素是否已经存在于某种临时数据集中,或计算这些元素在处理过的数据集中有多少。

如果你想遍历它,也许做一些即时编辑,你可以应用map,然后reduceByKey分组相同的元素。像这样

val singleKeys = 
    keys 
    .map(element => (element , 0)) 
    .reduceByKey((element, count) => element) 
    .map(_._1) 

在那里你可以做更改数据集在第一map部分。 count参数虽然从reduceByKey的定义中没有使用,但我们需要Tuple或Map中的第二个参数。

我认为这基本上是如何distinct内部工作。

0

RDD的重复的元素可以以这种方式被删除:

val data = List("-4.5,-4.2,2.7", "10,20,30", "-4.5,-4.2,2.7") 
val rdd = sparkContext.parallelize(data) 
val result = rdd.map((_, 1)).reduceByKey(_ + _).filter(_._2 == 1).map(_._1) 
result.foreach(println) 

结果:

10,20,30 
+0

非常感谢!但我想保留所有重复元素的一个实例。可能吗 ? – Sol

+0

是的,如果删除“过滤器”条款。结果将与“distinct”相同。 – pasha701

+0

你是最棒的!谢谢 (: – Sol