fuzzy-comparison

1热度

1回答

我想将R中的模糊查找逻辑应用于下面链接中提到的数据集，并希望获得与我们通过SSIS获得的结果相同的结果。 https://www.codeproject.com/Tips/528243/SSIS-Fuzzy-lookup-for-cleaning-dirty-data 请如在以上提到的链接源的多于一个柱被匹配到目标的多个列的术语解释。查找表的上述链接（First_Name，Last_Name）与R

0热度

1回答

名称的近似字符串匹配算法

我正在为以下示例寻找模糊字符串算法：给定现有名称的数据库，如果匹配的准确性高于输入阈值，则将匹配输入匹配到最匹配的名称90％），或以其他方式NA database = [James Bond, Michael Smith] 输入 James L Bond->James Bond JBondL->James Bond Bond,James->James Bond BandJamesk->J

0热度

1回答

PostgresSQL：使用来自两个表格的模糊匹配的地址匹配

我想做什么; 我有两个表有两个地址列，都存储为text我想创建一个视图返回匹配的行。我试过了; 我已经创建和索引的列和表如下; CREATE INDEX idx_table1_fulladdress ON table1 (LOWER(fulladdress_ppd)); 然后运行以下; CREATE OR REPLACE VIEW view_adresscheck AS SELECT --f

2热度

1回答

基于条件的两个大型数据集上的模糊模糊字符串匹配-python

我有两个大型数据集，我读入Pandas DataFrames（分别为〜20K行和〜40K行）。当我尝试在地址字段上使用pandas.merge完全合并这两个DF时，与行数相比，我得到了一个微不足道的匹配数。所以我想我会尝试模糊字符串匹配，看看它是否改善了输出匹配的数量。我尝试在DF1 [20K行]中创建一个新列，这是将DF1 [addressline]上的fuzzywuzzy extracton

2热度

1回答

自动化文本/模糊匹配的最佳机器学习方法

我对机器学习非常熟悉，我在Python中完成了一些项目。我正在寻找如何解决我认为可以实现自动化的以下问题的建议。我组织中的数据质量团队中的用户每天都会收集已手动输入的公司名称（含地址）列表，他必须搜索公司数据库以查找匹配结果，使用他的判断 - 即没有硬性规定。输入的一个例子是：公司名称，地址行1，国家如此，用户实现了公司名称和将其输入的搜索工具。他在哪里得到一份结果列表，并且选择最佳匹配，

-1热度

1回答

如何在R中使用正则表达式来创建一个规范化公司名称的新列？

我有一个公司名称列的数据框。我想创建一个新的列是名称的模糊/规范化的版本（可能使用正则表达式来剥离后缀，如“公司，‘公司’和‘有限责任公司’和前缀，如‘’）。 name <- c("Microsoft", "Apple, Inc.", "Youtube, LLC", "Huffington Post") companies <- data.frame(name) 我想公司$ canonica

6热度

3回答

如何找到大串的最佳拟合子序列？

假设我有一个大字符串和一个子字符串数组，当它们与大字符串相等时（差别很小）。例如（注意字符串之间的细微差别）： large_str = "hello, this is a long string, that may be made up of multiple substrings that approximately match the original string" sub_strs

0热度

1回答

处理大熊猫数据帧（模糊匹配）

我想做模糊匹配，其中我从大数据框（130.000行）的列到列表（400行）的字符串进行匹配。我写的代码是在一个小样本上测试的（匹配3000行到400行）并且工作正常。它太大复制到这里，但它大致是这样的： 1）列 2的数据标准化）创建笛卡尔积列和计算Levensthein距离 3）选择在单独的得分最高的比赛和商店的large_csv_name“名单。 4）比较'large_csv_names'到'

2热度

2回答

模糊匹配下一列中同一行的一列中的行

我想根据另一列在一列中查找信息。所以我在一列中有一些词，在另一列中有完整的句子。我想知道它是否找到这些句子中的单词。但有时这些词不一样，所以我不能使用SQL like函数。因此，我认为模糊匹配+某种形式的“喜欢”的数据是这样的功能将是有益的： Names Sentences Airplanes Sarl Airplanes-Sàrl is part of Airplanes-Grou

3热度

2回答

如何将机器学习应用于模糊匹配

假设我有一个MDM系统（主数据管理），其主要应用是检测和防止重复记录。每当销售代表进入系统中的新客户时，我的MDM平台会对现有记录进行检查，计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离，考虑权重和系数以及输出相似度分数等等。您的典型模糊匹配场景。我想知道是否有意义应用机器学习技术来优化匹配输出，即找到最大精度的重复。而它最有意义的地方在哪里。优化属性的