fuzzy-comparison

    1热度

    1回答

    我想将R中的模糊查找逻辑应用于下面链接中提到的数据集,并希望获得与我们通过SSIS获得的结果相同的结果。 https://www.codeproject.com/Tips/528243/SSIS-Fuzzy-lookup-for-cleaning-dirty-data 请如在以上提到的链接源的多于一个柱被匹配到目标的多个列的术语解释。查找表的上述链接(First_Name,Last_Name)与R

    0热度

    1回答

    我正在为以下示例寻找模糊字符串算法:给定现有名称的数据库,如果匹配的准确性高于输入阈值,则将匹配输入匹配到最匹配的名称90%),或以其他方式NA database = [James Bond, Michael Smith] 输入 James L Bond->James Bond JBondL->James Bond Bond,James->James Bond BandJamesk->J

    0热度

    1回答

    我想做什么; 我有两个表有两个地址列,都存储为text我想创建一个视图返回匹配的行。 我试过了; 我已经创建和索引的列和表如下; CREATE INDEX idx_table1_fulladdress ON table1 (LOWER(fulladdress_ppd)); 然后运行以下; CREATE OR REPLACE VIEW view_adresscheck AS SELECT --f

    2热度

    1回答

    我有两个大型数据集,我读入Pandas DataFrames(分别为〜20K行和〜40K行)。当我尝试在地址字段上使用pandas.merge完全合并这两个DF时,与行数相比,我得到了一个微不足道的匹配数。所以我想我会尝试模糊字符串匹配,看看它是否改善了输出匹配的数量。 我尝试在DF1 [20K行]中创建一个新列,这是将DF1 [addressline]上的fuzzywuzzy extracton

    2热度

    1回答

    我对机器学习非常熟悉,我在Python中完成了一些项目。我正在寻找如何解决我认为可以实现自动化的以下问题的建议。 我组织中的数据质量团队中的用户每天都会收集已手动输入的公司名称(含地址)列表,他必须搜索公司数据库以查找匹配结果,使用他的判断 - 即没有硬性规定。 输入的一个例子是: 公司名称,地址行1,国家 如此,用户实现了公司名称和将其输入的搜索工具。他在哪里得到一份结果列表,并且选择最佳匹配,

    -1热度

    1回答

    我有一个公司名称列的数据框。我想创建一个新的列是名称的模糊/规范化的版本(可能使用正则表达式来剥离后缀,如“公司,‘公司’和‘有限责任公司’和前缀,如‘’)。 name <- c("Microsoft", "Apple, Inc.", "Youtube, LLC", "Huffington Post") companies <- data.frame(name) 我想公司$ canonica

    6热度

    3回答

    假设我有一个大字符串和一个子字符串数组,当它们与大字符串相等时(差别很小)。 例如(注意字符串之间的细微差别): large_str = "hello, this is a long string, that may be made up of multiple substrings that approximately match the original string" sub_strs

    0热度

    1回答

    我想做模糊匹配,其中我从大数据框(130.000行)的列到列表(400行)的字符串进行匹配。 我写的代码是在一个小样本上测试的(匹配3000行到400行)并且工作正常。它太大复制到这里,但它大致是这样的: 1)列 2的数据标准化)创建笛卡尔积列和计算Levensthein距离 3)选择在单独的得分最高的比赛和商店的large_csv_name“名单。 4)比较'large_csv_names'到'

    2热度

    2回答

    我想根据另一列在一列中查找信息。所以我在一列中有一些词,在另一列中有完整的句子。我想知道它是否找到这些句子中的单词。但有时这些词不一样,所以我不能使用SQL like函数。因此,我认为模糊匹配+某种形式的“喜欢”的数据是这样的功能将是有益的: Names Sentences Airplanes Sarl Airplanes-Sàrl is part of Airplanes-Grou

    3热度

    2回答

    假设我有一个MDM系统(主数据管理),其主要应用是检测和防止重复记录。 每当销售代表进入系统中的新客户时,我的MDM平台会对现有记录进行检查,计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数以及输出相似度分数等等。 您的典型模糊匹配场景。 我想知道是否有意义应用机器学习技术来优化匹配输出,即找到最大精度的重复。 而它最有意义的地方在哪里。 优化属性的