- [R匹配字符向量

VAR1是字符向量- [R匹配字符向量

var1 <- c("tax evasion", "all taxes", "payment")

和VAR2是另一个字符向量

var2 <- c("bill", "income tax", "sales taxes")

想要比较VAR1和VAR2，并提取其具有部分字匹配的条件，为例如，在这种情况下，期望的答案将是以下字符向量：

"tax evasion", "all taxes", "income tax", "sales taxes"

I trie d

sapply(var1, grep, var2, ignore.case=T,value=T)

但没有得到想要的答案。如何做呢？

谢谢。

来源

2015-05-24 user6633625673888

可能是你需要

lst1 <- strsplit(var1, ' ') 
lst2 <- strsplit(var2, ' ') 

indx1 <- sapply(lst1, function(x) any(grepl(paste(unlist(lst2), 
     collapse="|"), x))) 
indx2 <- sapply(lst2, function(x) any(grepl(paste(unlist(lst1), 
     collapse="|"), x))) 
c(var1[indx1], var2[indx2]) 
#[1] "tax evasion" "all taxes" "income tax" "sales taxes"

如果有VAR1和VAR2之间相交，包装与unique为@ColonelBeauvel在他优雅的解决方案一样。

来源

2015-05-24 08:27:52 akrun

谢谢akrun和Beauvel上校。你的答案都很优雅，尽管我个人更喜欢使用较少或没有其他包的答案。 – user6633625673888

你可以做（我用magrittr的代码的清晰度包）：

library(magrittr) 

findIn = function(u, v) 
{ 
    strsplit(u,' ') %>% 
     unlist %>% 
     sapply(grep, value=T, x=v) %>% 
     unlist %>% 
     unique 
} 

unique(c(findIn(var1, var2), findIn(var2, var1))) 
#[1] "income tax" "sales taxes" "tax evasion" "all taxes"

来源

2015-05-24 08:31:13

在2分钟内我实际上有时间复制它并格式化:)我在我身上开发了它，但是您更快，发布时没有看到您的答案。顺便说一句，如果两个名单有一个共同的句子，你最后需要独特的。 –

是的，你是对的，最后需要'独特'。我不是说你抄袭了。我看到了相似性，所以我评论道。 – akrun

@akrun你为什么删除你的答案？ – user6633625673888

- [R匹配字符向量

回答

相关问题