-2
我是新来的Spark和StackOverFlow社区的编程人员。尝试在Cloudera QuickStart VM中使用Spark获取数据的子集。在所附的快照,你会看到20条记录使用代码的输出:在Spark中设置数据
channel_views.take(20)
这里,channel_views
是一个包含几百个记录的RDD。我试图只包含那些包含单词'XYZ'的特定记录和相应的数值。我如何实现这一目标?
在此先感谢。
zero323:谢谢您的答复。我尝试在Spark命令行中使用第一条命令,但它没有提供包含确切单词“XYZ”的记录列表。相反,输出结果显示“PythonRDD.scala:RDRD处的PythonRDD [44]”。不知道这是什么意思。 – dataZ
http://spark.apache.org/docs/latest/quick-start.html#basics – zero323
谢谢,zero323!您的解决方案和资源帮助!原谅我对这个问题的无知 - 我是新的(1周大)到Spark领域,以及stackoverflow社区。 – dataZ