2016-12-22 51 views
1

有没有一种快速和良好的做法,通过它最接近的索引来加入pandas DataFrame值?我必须这样做大数据框和我的黑客和解决办法,我尝试过,速度慢,因此不是非常有用。按最接近索引加入熊猫数据框值

可以说我有两个数据框dfdf2。现在我想将df2的值加入df,这是关于它最接近/最接近的索引。

import numpy as np 
import pandas as pd 

df = pd.DataFrame(np.random.randint(0,100,size=(4, 6)), 
       index=[1,1.55,3.33,9.88], 
       columns=[1,2.66,4.66,8.33,11.11,12]) 

df2 = pd.DataFrame(np.random.randint(0,100,size=(2, 3)), 
       index=[1.51,3.31], 
       columns=[2.64,4.65,8.31]) 

In [23]: df 
Out[23]: 

     1.00 2.66 4.66 8.33 11.11 12.00 
1.00  98  40  28  36  49  92 
1.55  52  51  61  64  28  98 
3.33  66  33  91  21  24  79 
9.88  30  21  13  62  89  22 

In [24]: df2 
Out[24]: 

     2.64 4.65 11.12 
1.51 999 999 999 
3.31 999 999 999 

# The result should look like the following: 

     1.00 2.66 4.66 8.33 11.11 12.00 
1.00  98  40  28  36  49  92 
1.55  52  999 999 55  999 98 
3.33  66  999 999 67  999 79 
9.88  30  21  13  62  89  22 
+0

你如何定义“关闭”?我们在谈论“价格合适”的规则吗?或欧几里德距离?或... – Back2Basics

回答

4

设置
因为OP dataframes不一致

df = pd.DataFrame(
    1, 
    index=[1,1.55,3.33,9.88], 
    columns=[1,2.66,4.66,8.33,11.11,12]) 

df2 = pd.DataFrame(
    999, 
    index=[1.51,3.31], 
    columns=[2.64,4.65,8.31]) 

print(df) 

     1.00 2.66 4.66 8.33 11.11 12.00 
1.00  1  1  1  1  1  1 
1.55  1  1  1  1  1  1 
3.33  1  1  1  1  1  1 
9.88  1  1  1  1  1  1 

print(df2) 

     2.64 4.65 8.31 
1.51 999 999 999 
3.31 999 999 999 

Trickiness我没有时间来解释。 Docs

kw = dict(method='nearest', tolerance=.3) 
df2.reindex(df.index, **kw).T.reindex(df.columns, **kw).T.combine_first(df) 

     1.00 2.66 4.66 8.33 11.11 12.00 
1.00 1.0 1.0 1.0 1.0 1.0 1.0 
1.55 1.0 999.0 999.0 999.0 1.0 1.0 
3.33 1.0 999.0 999.0 999.0 1.0 1.0 
9.88 1.0 1.0 1.0 1.0 1.0 1.0 

我会宁愿做这个

df2.stack().reindex_like(df.stack(), **kw) 

但我得到:

NotImplementedError: method='nearest' not implemented yet for MultiIndex; see GitHub issue 9365

至少它会提供在将来的某个时候。

+0

使用reindex公差使用非常有趣。 –

+0

@TedPetrou表示同意,这很酷 – piRSquared

+0

真是一个很棒的解决方案!感谢您的辉煌专长!它正是我正在寻找 – Manuel