fuzzy-comparison

    3热度

    1回答

    我已经尝试了这一段时间,并在网上四处寻找 - 但一直无法找到任何通过Lucene.NET 2.9.2搜索模糊短语的例子。 (C#) 是能够建议如何详细地做这个和/或提供一些示例代码 - 我会认真感谢任何帮助,因为我完全卡住了吗?

    5热度

    2回答

    Ruby上是否有类似于Python的difflib的库? 特别是,我需要一个类似于difflib.get_close_matches的方法。任何建议?

    8热度

    3回答

    在我创建的应用程序中,我想添加将新闻故事组合在一起的功能。我想将来自不同来源的同一主题的新闻故事分组到同一个组中。例如,来自CNN和MSNBC的XYZ上的文章将在同一组中。我猜测它的某种模糊逻辑比较。我如何从技术角度去做这件事?我有什么选择?我们甚至还没有启动该应用程序,所以我们不限制我们可以使用的技术。 谢谢,提前的帮助!

    4热度

    3回答

    我是一个Java初学者,试图写一个程序,将输入匹配到预定义的字符串列表。我曾看过Levenshtein的距离,但我遇到过这样的问题: 如果我有一个像“牛肉片”的输入,我希望它与“牛肉片”相匹配。问题在于,根据Levenshtein距离,“牛肉片”更接近“金枪鱼片”之类的东西,这当然是错误的。 我应该用Lucene这样的东西吗?是否在Java类中使用Lucene方法? 谢谢!

    1热度

    2回答

    任务:取两个文本文件并输出100%匹配和75%匹配。 解决方案: import difflib import csv # Imports and parses the files fileA = open("H:/comm.names.txt", 'r') try: setA = fileA.readlines() finally: fileA.close()

    28热度

    9回答

    我正在寻找一种方法来使用正则表达式进行模糊匹配。 我想使用Perl,但如果有人可以推荐任何方式来做到这一点,将是有益的。 作为一个例子,我想匹配一个字符串上的单词“纽约”前面有一个2位数的数字。因为文本来自PDF的OCR,所以我想要做一个模糊匹配。我想匹配: 12 New York 24 Hew York 33 New Yobk 等“亲密”的比赛(在莱文斯坦距离感),但不是: aa New

    7热度

    1回答

    我有一个比较两个文件的问题。基本上,我想要做的是两个文件之间的UNIX的diff,例如: $ DIFF -u左文件上右击文件 但是我的两个文件包含花车;并且由于这些文件是在不同的体系结构上生成的(但是计算相同的东西),所以浮动值不完全相同(它们可能会因1e-10而有所不同)。但是我通过“区分”文件寻求的是找到我认为是显着差异的东西(例如差异超过1e-4);在使用UNIX命令diff时,几乎所有包含

    1热度

    1回答

    必须有一些算法,这将使这比我在做什么容易... 我有什么是两个数组,每两列。两者中的一列是时间戳,另一列是测量结果。 需要采取什么措施是把它变成一个单一的阵列:时间戳,测量1,测量2 的问题是时间戳经常会不一致,完全是。一个数组可能在一段时间内完全缺失一个值,或者时间戳可能会被忽略(无足轻重,以至于将两个测量分配给相同的时间戳)。 有没有做这种模糊合并操作的一些众所周知的方式?一个简单的公共领域函

    3热度

    4回答

    我正在尝试计算出我的数据存储中的哪些条目是使用近似字符串匹配的近似重复项。 在python中是否有下列方法的实现,或者我需要尝试和自己滚动? 谢谢:) from wikipedia: ... 蛮力的方法是 计算对于P的编辑距离对于T的所有 子,然后选择具有最小距离的 子串。 然而,该算法将具有 运行时间为O(N 3米) 更好的解决方案[3] [4],利用 动态规划,使用 问题的 替代制剂:在每个位

    5热度

    2回答

    我有一个问题是有点高的水平,所以我会尽量做到尽可能具体。 我正在做很多研究,涉及将不同的数据集合与引用同一实体(通常是公司或金融安全性)的头信息相结合。该记录链接通常涉及标题信息,其中该名称是唯一常见的主要标识符,但是其中通常可获得一些次要信息(例如城市和州,操作日期,相对大小等)。这些比赛通常是一对多的,但可能是一对一或甚至多对多。我通常手工完成这个匹配,或者对清理过的子串进行非常基本的文本比较