字符串上的过滤器火花DataFrame包含

val df = sqlContext.read.avro("src/test/resources/episodes.avro") 
df.filter("doctor > 5").write.avro("/tmp/output")

但是，如果我需要看看是否doctor字符串包含一个子呢？由于我们在字符串内写入我们的表达式。我该怎么做一个“包含”？

您可以使用contains（这可与任意顺序）：

df.filter($"foo".contains("bar"))

like（SQL像SQL简单的正则表达式蒙山_匹配任意字符和%匹配任意顺序）：

df.filter($"foo".like("bar"))

df.filter($"foo".rlike("bar"))

根据您的要求。 LIKE和RLIKE也应该使用SQL表达式。

2016-03-02 22:21:26 zero323

是上面的scala代码吗？看起来像scala不喜欢$符号。我导入了'import org.apache.spark.sql.functions.lit' –

Scala。为了使'$'工作，你需要'import sqlContext.implicits._'。你可以用'df（“foo”）''或'org.apache.spark.sql.functions.col（“foo”）'替换它。 – zero323

太棒了！非常感谢 –

回答