2009-11-13 68 views
2

我想找到可能的候选重复像公司名称和ADDRESSLINE1使用SQL Server 2005的

实例字段的大型数据库匹配记录模糊匹配可能重复一个好的SQL策略:

为了与记录公司名称:

  • “Acme,Inc.”

我想为我的查询与这些COMPANYNAME值尽可能的DUP吐出其他记录:

  • “Acme公司”
  • “极致,收编”
  • “Acme的”

我知道如何做连接,相关的子查询等做拉动我想要的数据集的机制。我知道这已经在这里覆盖。我有兴趣听到关于进行模糊搜索的最佳方式的想法 - 我应该使用全文索引还是soundex函数或其他我没有意识到的过程? (我正在使用SQL Server 2005)

任何帮助表示赞赏!

回答

1

我会推荐使用SSIS任务来定期清理数据。 SSIS具有模糊匹配运算符,并且有第三方提供者提供更强大的组件。在话题有些文章:

如果预算许可和经营规模是值得的,你甚至可以考虑一个MDS服务器:SQL Server 2008 R2 Master Data Services

+0

我用这个和它的作品真的很好寻找可能的重复 – HLGEM 2009-12-31 16:24:14