0
我有一张目前只将记录缩小到唯一联系人的表,并且它可以正常工作,但由于拼写错误,我仍然留下该唯一联系人的类似记录。一些“重复项”具有空列或空列。查找具有最完整列的记录
我想通过查找填充最多的列的记录来解决这个问题(尽管准确性),排除其余的?如果多列填充的金额相同,请根据最近的创建日期进行选择。有没有办法做到这一点?
fileid datecreated first middle last phone
00001 2015-11-16 bob null smith 555-5555
00002 2013-18-7 BOB SMITHE
00003 2015-11-1 Bobb B Smith 555-5555
00004 2014-5-23 bob smith NULL
我想我会开始使用COUNT(),但我不知道如果这是正确的。
这是一个巨大的项目。 – Strawberry
由于草莓提到这可能是巨大的。在asp.net中查找levenshtein距离和lucene。让我知道你是否需要更多细节。请参考这个http://levenshtein.blogspot.com/ – Moe
根据你有多少这些重复的行,我会试图手动做到这一点。然后,我会支持应用程序和数据库逻辑,以确保它不会再发生。 – Arth