我正在寻找大数据问题的最佳解决方案。我一直在想一会儿,很高兴听到你的意见。在大型数据库表中标记重复记录的最快方法
我有一个MySQL数据库,其中包含大约5.000.000条记录,每天加载并更改(新记录和更改记录)。
该表中有一些重复的记录,我希望每天都有记录。
表中有20列。我想查找在表格的4列中具有相同数据的重复记录。
另外,我发现重复我需要通过每个重复记录循环更新我的搜索功能,并更新表中它是复制到其他产品的记录。
我想尽可能少使用mysql资源,并尽可能快地创建脚本。
现在我有以下查询,但它是真的慢:
SELECT GROUP_CONCAT(id SEPARATOR '|') as ids,
GROUP_CONCAT(stock SEPARATOR '|') as stock
FROM table
GROUP BY column1, column2, column3, column4
HAVING count(id) > 1;
我可以把指标上的列,但我认为它仍然会无法运行此查询慢。
我很好奇你的愿景。
请参阅http://meta.stackoverflow.com/questions/333952/why-should-i-provide-an-mcve-for-what-seems-to-me-to-be-a-very-simple- sql-query如果点可以在5或6中有效传达,我们不需要看到20列 – Strawberry