record-linkage

    1热度

    1回答

    如果我有名字的一个载体,说: a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell") 我想使用levenshteinSim或类似的得到这个矢量中的相似性得分。但是,我不想让它自我评分。例如,"tom" #1得分为"tom" #3。并且不要为"tom" #1反对"tom" #1得分,所以不要

    0热度

    1回答

    我有两张表格,包含姓名和地址等客户信息。 ID Name Full Address 1 Anurag 123 CA USA 5001 2 Mike ABC CA USA 5002 3 Jason ZYZ TX USA 5003 4 Roshan HBC MS USA 5004 5 Tony UYS VT USA 5005 New_ID Name Full Address 111

    -1热度

    1回答

    我有一个标准记录重复数据消除任务: 我有许多文本(或其他)字段的记录,其中一些对应于相同的实体。合并这些记录是该任务的目标。 这种类型的任务 有一些广泛使用和简单的统计方法,如“Probabilistic Record Linkage”。其中一些更精确和更复杂,但利用相同的想法,如https://github.com/datamade/dedupe: 他们尝试以某种方式衡量每个领域作为相似性的度量

    1热度

    1回答

    如何使用模糊匹配大熊猫中检测到重复行(有效) 如何找到一列与所有其他的人的副本没有一个巨大的转换的循环row_i toString(),然后将其与所有其他的?

    0热度

    3回答

    我想使用https://github.com/datamade/dedupe来删除python中的一些记录。看他们的例子 data_d = {} for row in data: clean_row = [(k, preProcess(v)) for (k, v) in row.items()] row_id = int(row['id']) data_d[row_

    2热度

    1回答

    我对机器学习非常熟悉,我在Python中完成了一些项目。我正在寻找如何解决我认为可以实现自动化的以下问题的建议。 我组织中的数据质量团队中的用户每天都会收集已手动输入的公司名称(含地址)列表,他必须搜索公司数据库以查找匹配结果,使用他的判断 - 即没有硬性规定。 输入的一个例子是: 公司名称,地址行1,国家 如此,用户实现了公司名称和将其输入的搜索工具。他在哪里得到一份结果列表,并且选择最佳匹配,

    -5热度

    1回答

    我只是问在这里什么是在MySQL中重复删除表的最佳方法? 我与字段id,name,lastname,user_no,birthday,percentage,然后parent_id一个示例表。我想要的是在percentage和parent_id字段中添加一个值,该字段基于哪个记录是重复的以及它们的相似程度。 我只是要求一种方法。检查每个领域两次以检查比赛是否有效?或者,还有另一种方式吗?

    3热度

    2回答

    假设我有一个MDM系统(主数据管理),其主要应用是检测和防止重复记录。 每当销售代表进入系统中的新客户时,我的MDM平台会对现有记录进行检查,计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数以及输出相似度分数等等。 您的典型模糊匹配场景。 我想知道是否有意义应用机器学习技术来优化匹配输出,即找到最大精度的重复。 而它最有意义的地方在哪里。 优化属性的

    4热度

    1回答

    我需要在大型数据集中找到重复项,所以我正在测试dedupe python库。 我知道它建议用于小数据集,所以我认为使用好机器可以提高性能。我有一台具有56 GB RAM的机器,对于具有200000行的数据集,我正在运行类似于"csv_example"的测试。它可以工作,但内存使用率非常低,所以处理(CPU)。 这似乎需要很长时间阻塞阶段: INFO:dedupe.blocking:10000, 1

    0热度

    2回答

    我有来自不同来源的客户和销售线索,我需要弄清楚客户是否已经注册为销售线索。 我使用的匹配12个字段: address1_clear address2_clear address_clear contact_name_clear email invoice_mobile invoice_phone mobile name_clear phone phone2 taxnum