2016-01-02 37 views
-2

我是新来的Spark和StackOverFlow社区的编程人员。尝试在Cloudera QuickStart VM中使用Spark获取数据的子集。在所附的快照,你会看到20条记录使用代码的输出:在Spark中设置数据

channel_views.take(20) 

这里,channel_views是一个包含几百个记录的RDD。我试图只包含那些包含单词'XYZ'的特定记录和相应的数值。我如何实现这一目标?

在此先感谢。

enter image description here

回答

1

RDD.filter

channel_views.filter(lambda x: "XYZ" == x[1]) # Exact matches 

channel_views.filter(lambda x: "XYZ" in x[1]) # XYZ in the value 
+0

zero323:谢谢您的答复。我尝试在Spark命令行中使用第一条命令,但它没有提供包含确切单词“XYZ”的记录列表。相反,输出结果显示“PythonRDD.scala:RDRD处的PythonRDD [44]”。不知道这是什么意思。 – dataZ

+0

http://spark.apache.org/docs/latest/quick-start.html#basics – zero323

+0

谢谢,zero323!您的解决方案和资源帮助!原谅我对这个问题的无知 - 我是新的(1周大)到Spark领域,以及stackoverflow社区。 – dataZ