在Spark中设置数据

-2

我是新来的Spark和StackOverFlow社区的编程人员。尝试在Cloudera QuickStart VM中使用Spark获取数据的子集。在所附的快照，你会看到20条记录使用代码的输出：在Spark中设置数据

channel_views.take(20)

这里，channel_views是一个包含几百个记录的RDD。我试图只包含那些包含单词'XYZ'的特定记录和相应的数值。我如何实现这一目标？

在此先感谢。

2016-01-02 dataZ

channel_views.filter(lambda x: "XYZ" == x[1]) # Exact matches

或

channel_views.filter(lambda x: "XYZ" in x[1]) # XYZ in the value

2016-01-02 19:13:34 zero323

zero323：谢谢您的答复。我尝试在Spark命令行中使用第一条命令，但它没有提供包含确切单词“XYZ”的记录列表。相反，输出结果显示“PythonRDD.scala：RDRD处的PythonRDD [44]”。不知道这是什么意思。 – dataZ

http://spark.apache.org/docs/latest/quick-start.html#basics – zero323

谢谢，zero323！您的解决方案和资源帮助！原谅我对这个问题的无知 - 我是新的（1周大）到Spark领域，以及stackoverflow社区。 – dataZ

回答