2015-05-24 73 views
2

VAR1是字符向量- [R匹配字符向量

var1 <- c("tax evasion", "all taxes", "payment") 

和VAR2是另一个字符向量

var2 <- c("bill", "income tax", "sales taxes") 

想要比较VAR1和VAR2,并提取其具有部分字匹配的条件,为例如,在这种情况下,期望的答案将是以下字符向量:

"tax evasion", "all taxes", "income tax", "sales taxes" 

I trie d

sapply(var1, grep, var2, ignore.case=T,value=T) 

但没有得到想要的答案。如何做呢?

谢谢。

回答

1

可能是你需要

lst1 <- strsplit(var1, ' ') 
lst2 <- strsplit(var2, ' ') 

indx1 <- sapply(lst1, function(x) any(grepl(paste(unlist(lst2), 
     collapse="|"), x))) 
indx2 <- sapply(lst2, function(x) any(grepl(paste(unlist(lst1), 
     collapse="|"), x))) 
c(var1[indx1], var2[indx2]) 
#[1] "tax evasion" "all taxes" "income tax" "sales taxes" 

如果有VAR1和VAR2之间相交,包装与unique为@ColonelBeauvel在他优雅的解决方案一样。

+2

谢谢akrun和Beauvel上校。你的答案都很优雅,尽管我个人更喜欢使用较少或没有其他包的答案。 – user6633625673888

3

你可以做(​​我用magrittr的代码的清晰度包):

library(magrittr) 

findIn = function(u, v) 
{ 
    strsplit(u,' ') %>% 
     unlist %>% 
     sapply(grep, value=T, x=v) %>% 
     unlist %>% 
     unique 
} 

unique(c(findIn(var1, var2), findIn(var2, var1))) 
#[1] "income tax" "sales taxes" "tax evasion" "all taxes" 
+2

在2分钟内我实际上有时间复制它并格式化:)我在我身上开发了它,但是您更快,发布时没有看到您的答案。顺便说一句,如果两个名单有一个共同的句子,你最后需要独特的。 –

+1

是的,你是对的,最后需要'独特'。我不是说你抄袭了。我看到了相似性,所以我评论道。 – akrun

+0

@akrun你为什么删除你的答案? – user6633625673888