jaro-winkler

    1热度

    1回答

    我有一个有数百万行的表。现在,当用户在从表格中搜索字符串或单词时出现任何拼写错误时,我想从表格推荐用户正确的单词或字符串。我使用jaro-winkler算法来比较字符串的距离,但是由于我的数据库非常庞大,我的查询花了很多时间来执行。在应用jaro-winkler算法之前,我将如何最小化数据。 有没有其他更好的方法,我可以通过它从大表快速搜索建议。 我想建立类似的搜索,如谷歌搜索没有自动建议。我正在

    0热度

    1回答

    我试图找到用于SQL Server的UDF dbo.fn_calculateJaroWinkler(用于计算Jaro Winkler距离)并且找不到它。有人写过,可以分享吗?

    0热度

    1回答

    我一直在琢磨如何实现这个算法在处理SQL个月的实施,https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance 如何能不能做到?

    0热度

    1回答

    我有2个表 - 一个有100万条记录,另一个有40000条记录。 如果在另一个表上有类似的字符串,我需要比较表中的每条记录。 的事情是,这个过程是非常缓慢的 我需要 优化此过程 为表A(SELECT名字||”“||姓氏从员工的全名) 环 SELECT COUNT(*) INTO num_coincidencias FROM表b WHERE utl_match.jaro_winkler_simila

    5热度

    3回答

    我试图编写一个函数来检测用户输入特定的短语/句子/单词/单词的准确程度。我的目标是建立一个应用程序来训练用户输入某些短语的准确性。 我最初的直觉是使用基本的levenshtein距离算法(主要是因为这是我唯一的头脑知道的算法)。 但经过多一点研究,我看到Jaro-Winkler是一个稍微有趣的算法,因为它考虑了换位。 我甚至发现,谈到这些算法之间的差异的链接: Difference between

    0热度

    1回答

    我有一个包含一些短语的文件。通过lucene使用jarowinkler,它应该从我的输入中得到最类似的短语。 这是我的问题的一个例子。 我们有一个包含文件: //phrases.txt this is goodd this is good this is god 如果我输入的是这是一个好,它应该是让我“这是件好事”从文件中第一次,因为这里的相似性得分是最大(1)。但由于某种原因,它返回:

    1热度

    1回答

    如果一个字符串接近表中的字符串,它会用表中的字符串取代吗? 像一个拼写检查函数,它搜索一个表,如果输入接近于表中的一个,它将修复它,所以表中的一个和字符串是相同的?

    0热度

    1回答

    我有一个表(ResponseData)与列RESPONSE_ID,RESPONSEDATA,KEY1,KEY2,KEY3,KEY4,VALUE1,VALUE2,VALUE3,VALUE4 用户可以插入数据任何以下类别。 1, “我的回答一个”, “姓名”,NULL,NULL,NULL, “苹果”,NULL,NULL,NULL 2, “我的回答两个”, “姓名”,“年龄”,NULL,NULL, “苹

    0热度

    1回答

    是否有任何库或C++中的函数的代码,我可以用它来比较C++中的数值向量?

    38热度

    1回答

    我有一个用例,我需要对来自多个文件的数百万条记录进行模糊匹配。我确定了两种算法:Jaro-Winkler和Levenshtein编辑距离。 当我开始探索这两者时,我无法理解两者之间的确切区别。 Levenshtein似乎给出了两个字符串之间的编辑数量,Jaro-Winkler给出了0.0到1.0之间的匹配分数。我不明白这个算法。因为我需要使用任何一种算法,所以我需要知道算法性能的确切差异。