我有一个sparkR
数据框称为Tweets与列名为bodyText
。sparkr数据框按列过滤使用正则表达式
我想要做的是通过bodyText上的正则表达式条件过滤数据帧。因此,例如,通过在bodyText中具有“反弹”或“抗议”的推文进行过滤。
我迄今为止尝试是:
subset(twitter_df, grepl("(?<=\\b)rally", twitter_df$bodyText, ignore.case = TRUE))
filter(twitter_df, grepl("(?<=\\b)rally", twitter_df$bodyText, ignore.case = TRUE))
但在这两种情况下收到此错误:
Error in as.character.default(x) : no method for coercing this S4 class to a vector Calls: main ... .local -> [ -> grepl -> as.character -> as.character.default
作品,非常感谢。我只需要添加sqlContext as.DataFrame: 'as.DataFrame(sqlContext,df)' –