agrep

0热度

1回答

我有一个位置矢量，我试图用正确的位置名称来消除歧义。对于这个例子中我仅使用两个消歧的位置寿： agrepl('Au', c("Austin, TX", "Houston, TX"), max.distance = .000000001, ignore.case = T, fixed = T) [1] TRUE TRUE 帮助页面说max.distance是允许的匹配最大距离。用整数表

1热度

1回答

如何在adist和agrep函数中设置成本参数？

我需要一些帮助来理解这些函数的参数。我从帮助中拿出了榜样。 ## To see the transformation counts for the Levenshtein distance: drop(attr(adist("kitten", "sitting", counts = TRUE), "counts")) # ins del sub # 1 0 2 ins，表示插入; del

2热度

1回答

agrep字符串匹配R

我有一些产品名称的两个列表。我的问题是“操作系统”与“系统”，“冷却系统”等匹配。但它只能与“操作”，“操作系统”相匹配。另一个例子是“Key Board”应该与“key”或“KB”匹配，但不能与“Mother Board”或“Board”匹配。如何重视第一个词而不是第二个词？我在R中使用了agrep()它也与第一个例子中的“系统”和“冷却系统”相匹配。如何避免这种匹配？是否有任何功能/方法

1热度

1回答

通过最佳字符串匹配将数据框中的字符串变量分组以创建子集

我有一个带有国家名称列的数据框。即使是同一个国家，这些名字也会有所不同，例如小写字母，缺少一些字母，一些额外的字母和儿子等。所以我需要在类似的模式下对它们进行分组。例如，我有两个属于同一类别的观察值:(“巴西”，“巴西”），我需要将它们放在一起。我不能手工做这件事，因为整个数据框是由大约10 000个观测数据组成的。在做出那些在一个类别中相似的观察之后，我需要从这些类别中创建一些子集。是否有

0热度

2回答

如何不用sapply改变重名？

我有一个文本向量与已注册的药物名称，另一个与新药名称。我想知道新药是否看起来像现有的药物。例如，如果supercure是可以由firm1或firm2生产的药物，并且supercure firm1 1000mg和supercure firm2 500mg已经注册，那么supercure firm1 500 mg应该与它们两者相关联。 agrep允许R中做这样的匹配，并sapply允许这样做对每

-1热度

1回答

使用agrep返回一个不同的变量

我正在使用agrep从一个表到另一个表进行查找，但是我想返回的结果不是要匹配的值。他们来自另一列/变量。我现在AGREP语法：所以现在：personalfolders$DOBMatch == c(290, 312)但我想要的是从另一个变量的数据帧返回值，我在寻找一个称为：allees2$PartPathmatch1为每个返回的行。我知道agrep的value = TRUE变量，但我相信只返回查询

1热度

1回答

与agrep匹配的模糊字符串

由于数据在遗留系统中存储错误，因此我使用R和agrep（）来匹配公司名称列表 - 因为数据在传统系统中存储错误 - 没有第四种常规格式，公司在同一级别上录制作为客户，这意味着每个新客户都有一个新的公司条目，这导致一家公司拥有许多不同的公司名称 - 这在很多情况下都能正常工作。有时，特别是对于短字符串，我得到的 - 至少对我来说 - 奇怪的比赛，例如（ABC是第一家名称）： ABC ABAXIS

0热度

1回答

为什么R中的agrep找不到最佳匹配？

我正在尝试使用agrep命令在R中进行字符串匹配。但是我担心它会在找到一个好匹配时停下来，而不是优化找到最好的匹配。虽然我有可能了解它的工作原理是不正确的。我下面的例子重现了这个问题，虽然很粗糙。 example1 <- c("height","weight") example2 <- c("height","weight") y <- c("","") for(i in 1: 2){

1热度

1回答

R中的模糊映射

我正尝试使用agrep命令进行模糊匹配。我有一个数据框，其中一列包含观众响应和另一个数据框，其中列出了段和子段。列受众响应包含作为子段名称的单词。例如： pattern$audience [1] "(Deleted) Semasio Â» DE: Intent Â» Christmas Shopping" [2] "(Old) AddThis - UK Â» Auto Â» General

3热度

1回答

字符串匹配记录来统计数据帧中的所有实例

我想从匹配某些条件的数据框中的行中提取所有字符串，例如每行中匹配“玉米”的字数。这是输入。 install.packages('stringr') library(stringr) dataset <- c("corn", "cornmeal", "corn on the cob", "meal") y<- c('corn',"corn","mean","meal") id<- c(1,2