fuzzy-comparison

    0热度

    1回答

    当我试着使用外文字符简单fuzzywuzzy的表情,我开始使用process.extractOne方法错误的结果(我试过使用和不使用U): >>> choices= [u"הלכות חנוכה",u"הלכות פורים",u"הלכות סוכה"] >>> process.extractOne("הלכות סוכה", choices) (u'\u05d4\u05dc\u05db\u

    0热度

    1回答

    我有两个具有不同维度的字符向量a,b。我必须将a中的每个元素与b中的所有元素进行比较,并记录元素是否紧密匹配。为了匹配,我使用了agrepl函数。 以下是样本数据 a <- c("US","Canada","United States","United States of America") b <- c("United States","U.S","United States","Canada

    2热度

    2回答

    比方说,我有一个静态方法,比较两个对象的近距离匹配并返回一些置信度[0,1]。 class Foo { ... static double Compare(const Foo& foo1, const Foo& foo2); ... }; 现在我需要返回一个包含具体取决于配置的设置比较细节的其他调试信息。 由于此调试信息不​​会在生产中使用,但仅用于测试/调试

    0热度

    2回答

    我有一个电子表格,其中包含地址,名称,IBAN,电子邮件等数值,并且想要识别客户上次购物时的情况。 问题是:有些字段包含拼写错误,其他字段有意输入错误。 在GitHub上,几个库如https://github.com/seatgeek/fuzzywuzzy,https://github.com/seamusabshere/fuzzy_match或https://github.com/atom/fu

    3热度

    1回答

    我正在处理两个基于阈值合并的不同数据集。比方说,两个dataframes是这样的: library(dplyr) library(fuzzyjoin) library(lubridate) df1 = data_frame(Item=1:5, DateTime=c("2015-01-01 11:12:14", "2015-01-02 09:15:23",

    1热度

    1回答

    我对Python很新,我想用模糊wuzzy进行模糊匹配。我相信我使用partial_ratio函数获得不正确的匹配分数。这里是我的探索代码: >>>from fuzzywuzzy import fuzz >>>fuzz.partial_ratio('Subject: Dalki Manganese Ore Mine of M/S Bharat Process and Mechanical Eng

    1热度

    1回答

    我有一组来自NCAA的球队名称,以及与它们相关的统计数据。学校名称通常会缩短或完全忽略,但名称的所有变体通常都有一个共同元素(如阿拉巴马州深红潮与深红色潮流)。这些名称都以不特定的顺序包含在数组中。我希望能够通过模糊匹配将团队名称的所有变体进行匹配,并将所有变体重命名为一个名称。我在Python 2.7中工作,我有一个numpy数组与所有的数据。任何帮助将不胜感激,因为我从来没有使用过模糊匹配。

    0热度

    2回答

    我想通过使用索引函数来比较A和B的字符串值。我想检查A是否在其列中包含B.我知道如何做到这一点的唯一方法是索引,但问题是索引不允许列名参数。你必须输入一个字符串值。 试过这个:index(Address, HouseNumber)>0但它不起作用。 例子: Address HouseNumber 123 Road Road 所以我想看看地址栏包含在该领域的门牌号值。它不会是直接匹配,而

    1热度

    1回答

    我期待通过模糊匹配算法对C#中的记录链接比较两个数据元素或字段,并且我想确定哪种算法对每次比较都是最佳的。 我期待比较的字段有: 姓 名 性别 出生年份 出生月份 生日 SSN 会员编号 MRN 街道号码 街道名称 街道类型 街方向 市 国家 邮编 电话 我目前使用的近似字符串匹配算法(ASM的)是: Levenshtein距离 海明距离 杰卡德距离 哈罗距离 哈罗 - 温克勒距离 最长共同亚序列

    0热度

    2回答

    我正在忙着写一个简单的算法来模糊匹配来自两个数据集的地址。我正在计算两个地址之间的levenshtein距离,然后将精确匹配或最短匹配添加到匹配数组。 然而,这是非常缓慢的,因为在最坏的情况下,它必须将每个旧地址与每个新地址进行比较。 我目前的解决方案如下: matches = []; foreach ($classifications as $classification) { $