我从Ronak Shah和akrun(in this post)如何构建一个正则表达式的每一个方面,从(在我的例子ALLDATA),除了那些话一个数据帧排除了解到,使用R,如何在这种情况下正确使用str_extract?
^\ BWORD1 | WORD2 | WORD3 | WORD4 | WORD5 \>
,但由于某些原因,想不通为什么它给我
“WORD2”, “WORD3”,NA
代替
“WORD1 WORD2 WORD5”, “WORD3”,NA
这里是我的例子:
library(stringr)
alldata <- data.frame(toupper(c("word1 anotherword word2 word5", "word3", "none")))
names(alldata)<-"columna"
removeex <- c("word1" , "word2" ,"word3" ,"word4", "word5")
regularexprex <- toupper(paste0("^\\b",paste0(removeex, collapse = "|"), "\\>"))
alldata$columnb <- str_extract(alldata$columna, regularexprex)
我试图添加+或*在正则表达式的结尾但没有任何影响。
由于事实上我是一个正则表达式的初学者,我肯定会错过一些东西,有人可能会指导我呢? 问候,
你是说你需要为特定列表中的所有条目获取NA? –
我想保留列表中存在的所有单词,删除剩下的单词。如果不存在,我会得到一个NA。抱歉不清楚。 –