我有一个数据集,其中有一个名为WebsiteData
的表中存储了名为Website
(类型VARCHAR
)的列中的数千个网址。有许多对URL(存储在单独的行中)是相同的,除了一个以www
开始,例如, www.google.com
,另一个不是,例如google.com
。我将如何设计一个标识这些伪重复项的SQL查询并删除不以www
开头的版本?使用SQL查询去除相似但不相同的URL
0
A
回答
1
我衍生2代表一个与具有www.
和一个没有网址。通过添加www将它们加入在一起。到没有的网站。
-- SELECT first to review the records.
select *
from
(select * from website where url not like 'www.%') wA
join
(select * from website where url like 'www.%') wB
on 'www.' + wa.url = wb.url
delete wA
from
(select * from website where url not like 'www.%') wA
join
(select * from website where url like 'www.%') wB
on 'www.' + wa.url = wb.url
0
使用SUBSTRING首先获取网站部分。并与任何重复条目匹配并删除它。
DELETE tableW
FROM tableW W
JOIN
(
select W1.website
FROM tableW W1
inner join tableW W2
on W1.website = SUBSTRING(W2.website,CHARINDEX('.',W2.website, 0)+1, LEN(w2.website))
) T
on T.website = W.website
相关问题
- 1. 用于排除具有相似值但不相同的行的SQL查询
- 2. 使用SQL根据相似的ID查询不同的对
- 3. SQL查询计数除以相同查询的不同计数
- 4. 表中的SQL查询,但ID相同
- 5. SQL与子查询相似
- 6. 的Sql相同的查询,但示出了不同的结果
- 7. sql查询总和相同的id,但不同的值?
- 8. 查询相同ACCOUNT_ID,相同的状态,但不是CURRENT_USER SQL钢轨
- 9. 相同查询但执行计划不同,服务器相同
- 10. 相同的XPath查询使用Google文档,但不使用PHP
- 11. Django Trigram相似查询速度不及原始查询的结果相同
- 12. 相同的Neo4j查询不使用JDBC
- 13. 使用不同但相似但没有分支的对象
- 14. sql查询不拉记录相同
- 15. 匹配类似但不相同的列
- 16. PHP变量似乎是相同的,但它们并不相同
- 17. Ruby类似乎是相同的,但并不相同
- 18. SQL Server查询运行SQLServer的内部罚款,但相同的查询不JDBI
- 19. 相似性的MDX查询
- 20. 不要重复自己:相同的SQL查询,但两个不同的表
- 21. 两个字符似乎相同,但UTF-8编码不相同
- 22. SQL Server - 相同的查询,相同的数据库,不同的结果
- 23. 多页,但相同的查询URL重写
- 24. Sql加入类似的列,但不相同
- 25. 从python列表中删除类似但不相同的列表
- 26. 相同的查询
- 27. SQL服务器T SQL 2014(重复使用相同的查询)
- 28. 相同的查询使用相同的数据,不同的性能
- 29. Solr中的相似度/近似查询
- 30. 这三个相似但不相同的问题。怎么样?
你应该知道这些不一定是重复的URL – Lamak 2014-09-25 15:40:31
你能否详细说明一下? – zgall1 2014-09-25 15:51:01
好吧,只是因为*通常*'www.someurl.com'指向'someurl.com',这并不意味着在所有的 – Lamak 2014-09-25 15:53:06