0

在比较存储在Solr数据存储区中的“指纹”类型数据时,Solr能为您提供最接近的匹配。例如,Solr - 最近匹配 - 此功能是否存在?

eJyFk0uyJSEIBbcEyEeWAwj7X8JzfDvKnuTAJIojWACwGB4QeM 
    HWCw0vLHlB8IWeF6hf4PNC2QunX3inWvDCO9WsF7heGHrhvYV3qvPEu- 
    87s9ELLi_8J9VzknReEH1h-BOKRULBwyZiEulgQZZr5a6OS8tqCo00cd 
    p86ymhoxZrbtQdgUxQvX5sIlF_2gUGQUDbM_ZoC28DDkpKNCHVkKCgpd 
    OHf-wweX9adQycnWtUoDjABumQwbJOXSZNur08Ew4ra8lxnMNuveIem6 
    LVLQKsIRLAe4gbj5Uxl96RpdOQ_Noz7f5pObz3_WqvEytYVsa6P707Jz 
    j4Oa7BVgpbKX5tS_qntcB9G--1tc7ZDU1HamuDI6q07vNpQTFx22avyR 

它可以找到这个记录,如果它提供了一些非常相似的东西?它能提供一个信心评分吗?

+0

Ngram会帮忙吗? – aitchnyu 2012-07-16 06:32:42

回答

1

一个直接的方法可能是使用a fuzzy search,并选择第一个命中(按分数),然后您需要检查命中是否匹配良好,也许通过测试您可以找到一些好的经验法则。

但不确定perf是否会成为这样长的令牌的问题。使用Lucene4.0,其中模糊性能得到很大提高。

0

您可以试试Ngram filter factory.您可以选择与匹配/相似指纹一致的最小/最大克尺寸。

如果您的minGramSize和maxGramSize范围很窄,则可以匹配具有相似指纹的文档,而无需迭代误报。