我知道这个主题在此之前出现过很多次,但是没有一个建议的解决方案适用于我的数据集,因为我的笔记本电脑由于内存问题或完全存储而停止计算。从大型数据集(> 100Mio行)中删除重复信息
我的表如下所示,具有108
宇行:
Col1 |Col2 | Col3 |Col4 |SICComb | NameComb
Case New |3523 | Alexander |6799 |67993523| AlexanderCase New
Case New |3523 | Undisclosed |6799 |67993523| Case NewUndisclosed
Undisclosed|6799 | Case New |3523 |67993523| Case NewUndisclosed
Case New |3523 | Undisclosed |6799 |67993523| Case NewUndisclosed
SmartCard |3674 | NEC |7373 |73733674| NECSmartCard
SmartCard |3674 | Virtual NetComm|7373 |73733674| SmartCardVirtual NetComm
SmartCard |3674 | NEC |7373 |73733674| NECSmartCard
独特的列是SICComb
和NameComb
。我试着添加一个主键具有:
ALTER TABLE dbo.test ADD ID INT IDENTITY(1,1)
但整数只是在一个新分钟填补了超过30
GB我的存储的。
哪个会是最快最有效的方法从表中删除重复项?
@ user2713440你对重复的定义是什么?当所有列都相同时?或者当SICComb和NameComb相同? –
当SICComb和NameComb都相同时。 – user2713440
那么你如何决定要保留哪些? – Paparazzi