fuzzy-search

    3热度

    1回答

    我是新来的弹性搜索,所以我挣扎了一下,为我们的数据找到最佳查询。 想象一下,我想匹配下列单词“Handelsstandens Boldklub”。 目前,我使用下面的查询: { query: { bool: { should: [ { match: { name: { query: query, slop

    1热度

    1回答

    所以我处于违反直觉的情况,我想获得一些建议。 大部分我只是做一些字符串匹配,使用提取的字符串作为我的正则表达式的模式。虽然一般情况下,我可以用模糊正则表达式搜索做得很好,但偶尔会遇到这种情况: 比方说,我从一些数据(Python正则表达式包)中提取了以下模式。 pattern = 'the quick brown fox jumps over the lazy dog' 现在,我需要有与之相匹

    5热度

    1回答

    我有两个数据帧,每个数据帧具有不同数量的行。下面是每个数据几排设置 df1 = Company City State ZIP FREDDIE LEES AMERICAN GOURMET SAUCE St. Louis MO 63101 CITYARCHRIVER 2015 FOUNDATION St. Louis MO 63102

    0热度

    2回答

    我有一个电子表格,其中包含地址,名称,IBAN,电子邮件等数值,并且想要识别客户上次购物时的情况。 问题是:有些字段包含拼写错误,其他字段有意输入错误。 在GitHub上,几个库如https://github.com/seatgeek/fuzzywuzzy,https://github.com/seamusabshere/fuzzy_match或https://github.com/atom/fu

    1热度

    1回答

    如何使用模糊匹配大熊猫中检测到重复行(有效) 如何找到一列与所有其他的人的副本没有一个巨大的转换的循环row_i toString(),然后将其与所有其他的?

    2热度

    1回答

    我希望能够处理过度特定的搜索术语。因此,如果用户搜索“税收”,我希望能够包括税收以及标题字段中的结果。以下是我的Elasticsearch配置。我正在使用1.5版本。 设置 { "content_pages":{ "settings":{ "index":{ "creation_date":"1473848573964", "analysi

    1热度

    1回答

    我实现使用MVC的名字和机构的数据库托管在Azure-,需要提供一个聪明的办法 我明白我可以去搜索姓名和机构的能力对于错别字等通过以下的模糊搜索的一些元素: https://social.msdn.microsoft.com/Forums/azure/en-US/0b9f3feb-b084-4758-995f-3d5daabdbc5a/azure-search-ranking?forum=azur

    2热度

    1回答

    首先,我没有找到实际的模糊匹配算法。我们使用Dice系数和Levenshtein距离。我正在寻找最聪明的方式来利用这些算法。 目标: 我试图发现城市的名字在一段文字中,它们发生的顺序。我们有一个约100万个位置名称的列表。我想搜索一段文字,并检测其中一个位置是否存在,然后存储该城市。地点名称可以是单个或多个单词。 例段落: 妈妈你好!山姆和我正在考虑下个月在加拿大 绊倒。我们知道我们已经可以住在约

    0热度

    1回答

    我是SOLR的新手,我设置了一个核心,我正在努力添加模式,我需要在广告中添加模糊词组匹配的字段。 例如我需要在以下文本中搜索“dummy Printer Gallery five”。 Lorem存有是印刷的只是虚拟的文本排版 行业。 Lorem Ipsum自从16世纪以来一直是业界标准的虚拟文本 ,当时一台未知的打印机采用了一种类型的厨房,并且 将其制作成样本书。它不仅幸存了五个世纪的 。 即会区

    1热度

    3回答

    在Excel中我有一个艺术家,歌曲,版本列表。 此列表包含超过15000条记录。 问题是该列表包含一些“重复”记录。我说“重复”,因为它们不完全匹配。有些人可能会有一些错字,我想解决这些问题并删除这些记录。 因此,例如一些记录: ABBA - Mamma Mia - Party ABBA - Mama Mia! - Official 每个破折号表示一个单独的列(SO 3列A,B,C都填写)