agrep

    0热度

    1回答

    我有一个位置矢量,我试图用正确的位置名称来消除歧义。 对于这个例子中我仅使用两个消歧的位置寿: agrepl('Au', c("Austin, TX", "Houston, TX"), max.distance = .000000001, ignore.case = T, fixed = T) [1] TRUE TRUE 帮助页面说max.distance是 允许的匹配最大距离。用整数表

    1热度

    1回答

    我需要一些帮助来理解这些函数的参数。我从帮助中拿出了榜样。 ## To see the transformation counts for the Levenshtein distance: drop(attr(adist("kitten", "sitting", counts = TRUE), "counts")) # ins del sub # 1 0 2 ins,表示插入; del

    2热度

    1回答

    我有一些产品名称的两个列表。我的问题是“操作系统”与“系统”,“冷却系统”等匹配。但它只能与“操作”,“操作系统”相匹配。另一个例子是“Key Board”应该与“key”或“KB”匹配,但不能与“Mother Board”或“Board”匹配。 如何重视第一个词而不是第二个词? 我在R中使用了agrep()它也与第一个例子中的“系统”和“冷却系统”相匹配。如何避免这种匹配? 是否有任何功能/方法

    1热度

    1回答

    我有一个带有国家名称列的数据框。即使是同一个国家,这些名字也会有所不同,例如小写字母,缺少一些字母,一些额外的字母和儿子等。 所以我需要在类似的模式下对它们进行分组。例如,我有两个属于同一类别的观察值:(“巴西”,“巴西”),我需要将它们放在一起。我不能手工做这件事,因为整个数据框是由大约10 000个观测数据组成的。 在做出那些在一个类别中相似的观察之后,我需要从这些类别中创建一些子集。 是否有

    0热度

    2回答

    我有一个文本向量与已注册的药物名称,另一个与新药名称。我想知道新药是否看起​​来像现有的药物。 例如,如果supercure是可以由firm1或firm2生产的药物,并且supercure firm1 1000mg和supercure firm2 500mg已经注册,那么supercure firm1 500 mg应该与它们两者相关联。 agrep允许R中做这样的匹配,并sapply允许这样做对每

    -1热度

    1回答

    我正在使用agrep从一个表到另一个表进行查找,但是我想返回的结果不是要匹配的值。他们来自另一列/变量。我现在AGREP语法: 所以现在:personalfolders$DOBMatch == c(290, 312)但我想要的是从另一个变量的数据帧返回值,我在寻找一个称为:allees2$PartPathmatch1为每个返回的行。我知道agrep的value = TRUE变量,但我相信只返回查询

    1热度

    1回答

    由于数据在遗留系统中存储错误,因此我使用R和agrep()来匹配公司名称列表 - 因为数据在传统系统中存储错误 - 没有第四种常规格式,公司在同一级别上录制作为客户,这意味着每个新客户都有一个新的公司条目,这导致一家公司拥有许多不同的公司名称 - 这在很多情况下都能正常工作。 有时,特别是对于短字符串,我得到的 - 至少对我来说 - 奇怪的比赛,例如(ABC是第一家名称): ABC ABAXIS

    0热度

    1回答

    我正在尝试使用agrep命令在R中进行字符串匹配。 但是我担心它会在找到一个好匹配时停下来,而不是优化找到最好的匹配。虽然我有可能了解它的工作原理是不正确的。我下面的例子重现了这个问题,虽然很粗糙。 example1 <- c("height","weight") example2 <- c("height","weight") y <- c("","") for(i in 1: 2){

    1热度

    1回答

    我正尝试使用agrep命令进行模糊匹配。我有一个数据框,其中一列包含观众响应和另一个数据框,其中列出了段和子段。列受众响应包含作为子段名称的单词。例如: pattern$audience [1] "(Deleted) Semasio » DE: Intent » Christmas Shopping" [2] "(Old) AddThis - UK » Auto » General

    3热度

    1回答

    我想从匹配某些条件的数据框中的行中提取所有字符串,例如每行中匹配“玉米”的字数。这是输入。 install.packages('stringr') library(stringr) dataset <- c("corn", "cornmeal", "corn on the cob", "meal") y<- c('corn',"corn","mean","meal") id<- c(1,2