2015-12-11 54 views
1

例如,我们有字符串“abcdabcd”使用Apache火花串遍历

我们要计算所有对(例如:“AB”或“DA”)是在字符串中使用。

那么我们如何做到这一点在Apache的火花?

我问这个原因,它看起来像该RDD不支持滑动功能:

rdd.sliding(2).toList 
//Count number of pairs in list 
//Returns syntax error on first line (sliding) 

回答

5

显然,这如图zero323 here

import org.apache.spark.mllib.rdd.RDDFunctions._ 

val str = "abcdabcd" 

val rdd = sc.parallelize(str) 

rdd.sliding(2).map(_.mkString).toLocalIterator.forEach(println) 

将显示

支持通过 mllib sliding

ab
BC
CD

AB
BC
CD

+0

以及我们如何计算这些对?顺便说一句,你看起来像一个人在这里狩猎我的斯卡拉问题:) – lkn2993

+0

@ lkn2993在'Apache Spark'中使用经典[字数](https://spark.apache.org/examples.html)方法 –