我有两个DataFrame:a
和b
。这是他们的样子:Spark Scala筛选器DataFrame其中值不在另一个DataFrame中
a
-------
v1 string
v2 string
roughly hundreds of millions rows
b
-------
v2 string
roughly tens of millions rows
我想继续从行数据帧a
其中v2
不b("v2")
。
我知道我可以使用左连接和过滤器,其中右侧为空或SparkSQL与“不在”构造。我敢打赌,有更好的方法。
我已经发布了一个答案,但加盟+过滤器应该工作相当好!我认为在任何解决方案中,加入+过滤器的大部分工作都是不可避免的。 –
是的,实际上SparkSQL工作得非常快。另外 - 它不是重复的 - 我需要负滤镜。 – devopslife
请参阅http://stackoverflow.com/questions/29537564/spark-subtract-two-dataframes – keos