我开发了一个Python脚本,它读取一个CSV文件,这是一个SQL查询的结果(只是一个select * from table
),我对该数据帧执行一些转换和计算。Python数据框到SQL查询
我得到使用下面的Python数据帧命令:
result=csv_df.sort_values(by=['column1','column2','column3'],ascending=True)
result=result.drop_duplicates(['column1','column2'])
现在我需要使用SQL查询同一个表。我在T-SQL中尝试了以下内容,但是我没有成功。
select * from data
where column1 IN
(select distinct column1,column2 from data)
and
where column2 IN
(select distinct column1,column2 from data)
order by column1,column2;
我是新的SQL语法,有人可以帮我查询吗?
我想要做的是从column1
和column2
的组合删除所有重复的行。
在Python中,我包括column3
的原因是因为它有我需要丢弃的NULL
值。
之后我应该创建一个视图来继续执行计算?
这就是我一直在寻找的东西。你能否详细说明第一个答案背后的逻辑?你为什么使用Min(ID)?谢谢! –
就像熊猫一样,'drop_duplicates'保持第一(默认),然后丢弃匹配。首先是最小ID。您可以轻松更改为最大(ID)。 – Parfait