2016-09-28 26 views
2

我遍历数据库中的表和日期列表以收集数据。这样的事情:将for循环调整为列表理解

df_list = [] 
for table in table_list: 
    for date in required_date_range: 
     query = 'SELECT * FROM {} WHERE row_date = {};'.format(table, date) 
     df = pd.read_sql_query(sql=query, con=engine) 
     df_list.append(df) 

result = pd.concat(df_list) 

有没有办法把这样的循环放入列表理解?它甚至值得吗?

我发现一些示例代码https://tomaugspurger.github.io/modern-4-performance.html

files = glob.glob('weather/*.csv') 
weather_dfs = [pd.read_csv(fp, names=columns) for fp in files] 
weather = pd.concat(weather_dfs) 

它看起来更好,图表显示它的性能会更好,但我似乎无法环绕它我的头,当我试着调整自己的代码。

编辑 -

看来,如果我做了查询的列表,而不是工作。有没有办法让循环和.format初始化为列表理解?

for table in table_list: 
    for date in required_date_range: 
     queries = ['SELECT * FROM {} WHERE row_date = {};'.format(table, date)] 

dfs = [pd.read_sql_query(query, con=pg_engine) for query in queries] 

回答

1

我认为这应该工作

def q(table, date): 
    query = 'SELECT * FROM {} WHERE row_date = {};'.format 
    return pd.read_sql_query(sql=query(table, date), con=engine) 

df_list = [q(table, date) for table in table_list for date in required_date_range] 

Dmonstration
注:我切换到,因为这是一个示范只返回查询和我没有你数据库连接。

table_list = ['table1', 'table2'] 
required_date_range = ['date1', 'date2'] 

def q(table, date): 
    query = 'SELECT * FROM {} WHERE row_date = {};'.format 
    return query(table, date) 

df_list = [q(table, date) for table in table_list for date in required_date_range] 

df_list 

['SELECT * FROM table1 WHERE row_date = date1;', 
'SELECT * FROM table1 WHERE row_date = date2;', 
'SELECT * FROM table2 WHERE row_date = date1;', 
'SELECT * FROM table2 WHERE row_date = date2;'] 
+0

我没有downvote任何东西。让我试试这个。 – trench

3

我不认为列表理解本身会给你显着的性能提升。我的意思是,与循环相比,它可能会带来轻微的性能提升,但我认为这与其他需要完成的事情无关。查询数据库,初始化数据帧,进行分段。

什么可能给你一个性能提升是通过使用SQL IN运营商消除你内心的循环:

SELECT * FROM table_name WHERE row_date IN (date1, date2, date3,...); 

所以,将你的循环更改为类似:

df_list = [] 
for table in table_list: 
    query = 'SELECT * FROM {} WHERE row_date IN ({});'.format(table, ','.join(date_range)) 
    df = pd.read_sql_query(sql=query, con=engine) 
    df_list.append(df) 

从那么将其转换为理解是相当直接的:

query = 'SELECT * FROM {} WHERE row_date IN ({});' 
dfs = (pd.read_sql_query(sql=query.format(table, ','.join(date_range)), con=engine) for table in table_list) 
df = pd.concat(dfs) 

如果从每个表中的列是相同的,以相同的顺序,你甚至可以通过使用UNION ALL打造沿线的单个查询消除表圈:

SELECT * FROM table1 WHERE row_date IN (date1, date2, date3,...) 
UNION ALL 
SELECT * FROM table2 WHERE row_date IN (date1, date2, date3,...) 
UNION ALL 
... 

然后就是做单read_sql_query电话:

df = pd.read_sql_query(sql=union_all_query, con=engine) 
+0

我没有意识到IN语法会提高性能。我会立即执行,并测试你的列表理解。 – trench

+0

如果日期连续,使用'BETWEEN'可能会更好,即'WHERE row_date BETWEEN first_date AND last_date'。 – root