fuzzy-comparison

0热度

1回答

当我试着使用外文字符简单fuzzywuzzy的表情，我开始使用process.extractOne方法错误的结果（我试过使用和不使用U）： >>> choices= [u"הלכות חנוכה",u"הלכות פורים",u"הלכות סוכה"] >>> process.extractOne("הלכות סוכה", choices) (u'\u05d4\u05dc\u05db\u

0热度

1回答

循环遍历R中的2个不同维度的向量

我有两个具有不同维度的字符向量a，b。我必须将a中的每个元素与b中的所有元素进行比较，并记录元素是否紧密匹配。为了匹配，我使用了agrepl函数。以下是样本数据 a <- c("US","Canada","United States","United States of America") b <- c("United States","U.S","United States","Canada

2热度

2回答

如何从一个方法返回可选的调试信息？

比方说，我有一个静态方法，比较两个对象的近距离匹配并返回一些置信度[0,1]。 class Foo { ... static double Compare(const Foo& foo1, const Foo& foo2); ... }; 现在我需要返回一个包含具体取决于配置的设置比较细节的其他调试信息。由于此调试信息不会在生产中使用，但仅用于测试/调试

0热度

2回答

模糊标识指纹

我有一个电子表格，其中包含地址，名称，IBAN，电子邮件等数值，并且想要识别客户上次购物时的情况。问题是：有些字段包含拼写错误，其他字段有意输入错误。在GitHub上，几个库如https://github.com/seatgeek/fuzzywuzzy，https://github.com/seamusabshere/fuzzy_match或https://github.com/atom/fu

3热度

1回答

如何在R中使用fuzzyjoin :: difference_ *执行模糊连接

我正在处理两个基于阈值合并的不同数据集。比方说，两个dataframes是这样的： library(dplyr) library(fuzzyjoin) library(lubridate) df1 = data_frame(Item=1:5, DateTime=c("2015-01-01 11:12:14", "2015-01-02 09:15:23",

1热度

1回答

从模糊wuzzy partial_ratio得到不正确的分数

我对Python很新，我想用模糊wuzzy进行模糊匹配。我相信我使用partial_ratio函数获得不正确的匹配分数。这里是我的探索代码： >>>from fuzzywuzzy import fuzz >>>fuzz.partial_ratio('Subject: Dalki Manganese Ore Mine of M/S Bharat Process and Mechanical Eng

1热度

1回答

如何模糊python中的数组列中的项目？

我有一组来自NCAA的球队名称，以及与它们相关的统计数据。学校名称通常会缩短或完全忽略，但名称的所有变体通常都有一个共同元素（如阿拉巴马州深红潮与深红色潮流）。这些名称都以不特定的顺序包含在数组中。我希望能够通过模糊匹配将团队名称的所有变体进行匹配，并将所有变体重命名为一个名称。我在Python 2.7中工作，我有一个numpy数组与所有的数据。任何帮助将不胜感激，因为我从来没有使用过模糊匹配。

0热度

2回答

SAS帮助：使用索引函数比较2列

我想通过使用索引函数来比较A和B的字符串值。我想检查A是否在其列中包含B.我知道如何做到这一点的唯一方法是索引，但问题是索引不允许列名参数。你必须输入一个字符串值。试过这个：index(Address, HouseNumber)>0但它不起作用。例子： Address HouseNumber 123 Road Road 所以我想看看地址栏包含在该领域的门牌号值。它不会是直接匹配，而

1热度

1回答

使用模糊匹配算法比较数据元素的最佳方法

我期待通过模糊匹配算法对C#中的记录链接比较两个数据元素或字段，并且我想确定哪种算法对每次比较都是最佳的。我期待比较的字段有：姓名性别出生年份出生月份生日 SSN 会员编号 MRN 街道号码街道名称街道类型街方向市国家邮编电话我目前使用的近似字符串匹配算法（ASM的）是： Levenshtein距离海明距离杰卡德距离哈罗距离哈罗 - 温克勒距离最长共同亚序列

0热度

2回答

模糊匹配地址

我正在忙着写一个简单的算法来模糊匹配来自两个数据集的地址。我正在计算两个地址之间的levenshtein距离，然后将精确匹配或最短匹配添加到匹配数组。然而，这是非常缓慢的，因为在最坏的情况下，它必须将每个旧地址与每个新地址进行比较。我目前的解决方案如下： matches = []; foreach ($classifications as $classification) { $