2017-09-05 119 views
4

我是熊猫新手,我不知道做到这一点的最佳方式。熊猫 - 基于满足条件的列合并行

我有我已经放置在两个不同dataframes两个文件:

>> frame1.head() 
Out[64]: 

    Date and Time   Sample Unnamed: 2 
0 05/18/2017 08:38:37:490 163.7 NaN 
1 05/18/2017 08:39:37:490 164.5 NaN 
2 05/18/2017 08:40:37:490 148.7 NaN 
3 05/18/2017 08:41:37:490 111.2 NaN 
4 05/18/2017 08:42:37:490 83.6 NaN 


>>frame2.head() 
Out[66]: 
Date and Time    Sample Unnamed: 2 
0 05/18/2017 08:38:38:490 7.5 NaN 
1 05/18/2017 08:39:38:490 7.5 NaN 
2 05/18/2017 08:40:38:490 7.5 NaN 
3 05/18/2017 08:41:38:490 7.5 NaN 
4 05/18/2017 08:42:38:490 7.5 NaN 

我需要从帧1到“合并”的任何一行,在帧2中的任何行,是在一秒钟内的彼此。

例如, 从帧1这一列:

0 05/18/2017 08:38:37:490 163.7 NaN 

是该行的一秒内从帧2:

0 05/18/2017 08:38:38:490 7.5 NaN 

所以,当他们是“合并”的输出应该像这样:

0 05/18/2017 08:38:37:490 163.7 7.5 NaN NaN 

换句话说,一行有时间被另一个替换,a ND的所有剩余的列都只是附加

我想出是这样做的最接近的:

d3 = pd.merge(frame1, frame2, on='Date and Time (MM/DD/YYYY HH:MM:SS:sss)', how='outer') 

>>d3.head() 
    Date and Time   Sample_x Unnamed: 2_x Sample_y Unnamed: 2_y 
0 05/18/2017 08:38:37:490 163.7 NaN NaN NaN 
1 05/18/2017 08:39:37:490 164.5 NaN NaN NaN 
2 05/18/2017 08:40:37:490 148.7 NaN NaN NaN 
3 05/18/2017 08:41:37:490 111.2 NaN NaN NaN 
4 05/18/2017 08:42:37:490 83.6 NaN NaN NaN 

但是,这不是一个条件合并 ... .I如果它们彼此在一秒之内就需要合并,而不仅仅是完全相同。

我知道我可以用类似的时间比较:

def compare_time(temp, sec=1): 
    return abs(current - temp) <= datetime.timedelta(seconds=sec) 

然后使用。适用()或东西...但我不知道如何拼凑所有这一起

编辑:它看起来像pd.merge_asof做了很好的工作,但我也需要保留未在最后一帧以及

编辑匹配/合并的线路2:

df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'), 
        'sample': np.arange(4)+100 }) 
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'), 
        'sample': np.arange(4) }) 

blah = pd.merge_asof(df2, df1, on='datetime', tolerance=pd.Timedelta('1s')) \ 
    .append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x') 
blah 

回报:

datetime sample_x sample_y 
0 2017-01-01 00:00:00.000 0 100.0 
1 2017-01-01 00:00:00.300 1 100.0 
2 2017-01-01 00:00:00.600 2 100.0 
3 2017-01-01 00:00:00.900 3 100.0 
0 2017-01-01 00:00:00.000 100 NaN 
1 2017-01-01 00:00:01.000 101 NaN 
2 2017-01-01 00:00:02.000 102 NaN 
3 2017-01-01 00:00:03.000 103 NaN 

注意到它的保留原始行索引(零列出了两次)..

+4

您可以检查'pd.merge_asof' https://pandas.pydata.org/pandas-docs/stable/generated/pandas.merge_asof.html#pandas.merge_asof – Wen

+0

每行数据帧的行大小有多大? – Parfait

+0

如果r1的时间戳是05/18/2017 08:38:37:490,那么r2的时间戳是05/18/2017 08:39:36:490,而r3的时间戳是05/18/2017 08:40:35:490',他们将如何合并? r1和r2在一秒之内,r2和r3也在一秒之内。但r1和r3不是。 – RagingRoosevelt

回答

1

您可以使用merge_asof作为@Wen建议,但一定要指定可选值为tolerance。还要考虑设置匹配的direction的选项值,它可以是'后退'(默认),'最接近'或'前进'。

pd.merge_asof(df1, df2, on='datetime', tolerance=pd.Timedelta('1s')) 

这里的样本数据更详细的解释(请注意,我只是创造新的样本数据,因为我只能看到实际数据的前几行):

df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'), 
        'sample': np.arange(4)+100 }) 
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'), 
        'sample': np.arange(4) }) 

df1 
Out[208]: 
      datetime sample 
0 2017-01-01 00:00:00  100 
1 2017-01-01 00:00:01  101 
2 2017-01-01 00:00:02  102 
3 2017-01-01 00:00:03  103 

df2 
Out[209]: 
       datetime sample 
0 2017-01-01 00:00:00.000  0 
1 2017-01-01 00:00:00.300  1 
2 2017-01-01 00:00:00.600  2 
3 2017-01-01 00:00:00.900  3 

pd.merge_asof(df1, df2, on='datetime', tolerance=pd.Timedelta('1s')) 
Out[210]: 
      datetime sample_x sample_y 
0 2017-01-01 00:00:00  100  0.0 
1 2017-01-01 00:00:01  101  3.0 
2 2017-01-01 00:00:02  102  NaN 
3 2017-01-01 00:00:03  103  NaN 

注意merge_asof做左连接,所以你可以通过改变DF1 & DF2的秩序得到了不同的答案:

pd.merge_asof(df2, df1, on='datetime', tolerance=pd.Timedelta('1s')) 
Out[218]: 
       datetime sample_x sample_y 
0 2017-01-01 00:00:00.000   0  100 
1 2017-01-01 00:00:00.300   1  100 
2 2017-01-01 00:00:00.600   2  100 
3 2017-01-01 00:00:00.900   3  100 

编辑补充:文档说merge_asof按设计做了左连接,但它似乎与真正的左连接不同,它排除了左数据框中不匹配的行。为了解决这个问题,你可以做这样的事情:

pd.merge_asof(df1, df2, on='datetime', tolerance=pd.Timedelta('1s')) \ 
    .append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x') 
Out[236]: 
      datetime sample_x sample_y 
0 2017-01-01 00:00:00  100  0.0 
1 2017-01-01 00:00:01  101  3.0 
2 2017-01-01 00:00:02  102  NaN 
3 2017-01-01 00:00:03  103  NaN 

注意,你可能需要根据你是否拥有一个唯一索引和/或独特的列调整drop_duplicates

+0

我该如何保留行df2.2和df2.3?看起来像.6结尾的时间在结果数据框中丢失。 –

+0

我如何保留未合并的行?注意在合并结果中,样本值101,102,103缺失 –

+0

'blah = pd.merge_asof(df2,df1,on ='datetime',tolerance = pd.Timedelta('1s'))\ .append( df1.rename(columns = {'sample':'sample_x'}))。drop_duplicates('sample_x')'(d2,d1的颠倒顺序)看起来像是我想要的,但它有这种奇怪的效果,行索引为零..(我会将它张贴在一个edit_ –