有条件地将列A，B，C中的值替换为列D中的值

我正在清理描述如下所示的层次结构的混乱数据源。我正在使用Python和熊猫。有条件地将列A，B，C中的值替换为列D中的值

¦ A ¦ B ¦ C ¦ D ¦ 
----------------- 
¦ x ¦ ¦ ¦ a ¦ 
¦ ¦ x ¦ ¦ b ¦ 
¦ ¦ ¦ x ¦ c ¦ 
¦ ¦ ¦ x ¦ d ¦ 
¦ x ¦ ¦ ¦ e ¦ 
¦ ¦ x ¦ ¦ f ¦ 
¦ ¦ ¦ x ¦ g ¦ 
¦ ¦ ¦ x ¦ h ¦

我想生成唯一的ID也保持数据的层次性质。（每父名称是唯一的，不注重这部分请。）

¦ A ¦ B ¦ C ¦ D ¦ ID ¦ 
------------------------- 
¦ x ¦ ¦ ¦ a ¦ a  ¦ 
¦ ¦ x ¦ ¦ b ¦ a.b ¦ 
¦ ¦ ¦ x ¦ c ¦ a.b.c ¦ 
¦ ¦ ¦ x ¦ d ¦ a.b.d ¦ 
¦ x ¦ ¦ ¦ e ¦ e  ¦ <-- note, this is NOT e.b.d, 
¦ ¦ x ¦ ¦ f ¦ e.f ¦  so when parent changes 
¦ ¦ ¦ x ¦ g ¦ e.f.g ¦  fillna must not be applied 
¦ ¦ ¦ x ¦ h ¦ e.f.h ¦

我的策略是：

与值从d
使用大熊猫转发NA填充
串连A，B和C进入塔ID

2和3是容易的，但我无法通过1.我可以代替X-ES与单个值：

df[df.loc[:,'A':'C'] == 'x'] = 1

但如果我尝试通过df.D而不是1不起作用。

请推荐一款优雅的pythonic解决方案。

源工作，并具：

import sys 
if sys.version_info[0] < 3: 
    from StringIO import StringIO 
else: 
    from io import StringIO 
import pandas as pd 

TESTDATA=StringIO(""" 
A;B;C;D;solution 
x;;;x;x 
;x;;a;xa 
;x;;b;xb 
;x;;c;xc 
;;x;1;xc1 
;;x;2;xc2 
;x;;d;xd 
;;x;3;xd3 
;;x;4;xd4 
x;;;y;y 
;x;;e;ye 
;;x;5;ye5 
;;x;6;ye6 
;x;;f;yf 
;;x;7;yf7 
;;x;8;yf8 
;;x;9;yf9""") 

df = pd.read_csv(TESTDATA, sep=";", header=False)

来源

2016-04-21 Lorinc Nyitrai

你可以给你输入'df'吗？ –

是的，谢谢你的建议 –

例如，你的数据框的第6行的结果是什么？ –

不是最漂亮的过，但像

w0 = df.iloc[:,:3] 
wx = w0 == 'x' 
wempty = (wx.cumsum(axis=1) >= 1).shift(axis=1).fillna(False) 
wfilled = w0.where(~wx, df.D, axis=0).ffill() 
w = w0.where(wempty, wfilled, axis=1).fillna('') 
df["new_solution"] = w.apply('.'.join,axis=1).str.rstrip(".")

给我

>>> df 
     A B C D solution new_solution 
0  x NaN NaN x  x   x 
1 NaN x NaN a  xa   x.a 
2 NaN x NaN b  xb   x.b 
3 NaN x NaN c  xc   x.c 
4 NaN NaN x 1  xc1  x.c.1 
5 NaN NaN x 2  xc2  x.c.2 
6 NaN x NaN d  xd   x.d 
7 NaN NaN x 3  xd3  x.d.3 
8 NaN NaN x 4  xd4  x.d.4 
9  x NaN NaN y  y   y 
10 NaN x NaN e  ye   y.e 
11 NaN NaN x 5  ye5  y.e.5 
12 NaN NaN x 6  ye6  y.e.6 
13 NaN x NaN f  yf   y.f 
14 NaN NaN x 7  yf7  y.f.7 
15 NaN NaN x 8  yf8  y.f.8 
16 NaN NaN x 9  yf9  y.f.9

这里的技巧是使用cumsum，这让我们区分哪些应该是空的，从应填补了细胞的细胞。

来源

2016-04-21 17:03:12 DSM

我会分解你最小细节的答案，并以我学到的东西为生。：jawdropped： –

感谢您对以下解决方案的反馈意见：http://stackoverflow.com/a/37009971/1486768 –

您可以使用IX代替LOC的：

df.ix[df.ix[:,'A'] == 'x','A'] = df.ix[df.ix[:,'A'] == 'x','D'] 
df.ix[df.ix[:,'B'] == 'x','B'] = df.ix[df.ix[:,'B'] == 'x','D'] 
df.ix[df.ix[:,'C'] == 'x','C'] = df.ix[df.ix[:,'C'] == 'x','D']

来源

2016-04-21 13:16:16 ysearka

我试图避免重复和循环时处理数据。但是，这仍然可以成为赢家。谢谢。 –

这里有一个办法：

dt = pd.DataFrame([np.where(df[n]=='x', df['D'], df[n]) for n in ['A','B','C']]).T 

dt.ffill().fillna('').apply(lambda x: '.'.join(x), axis=1).str.replace('\.+$','') 

Out[213]: 
0   x 
1  x.a 
2  x.b 
3  x.c 
4  x.c.1 
5  x.c.2 
6  x.d.2 
7  x.d.3 
8  x.d.4 
9  y.d.4 
10 y.e.4 
11 y.e.5 
12 y.e.6 
13 y.f.6 
14 y.f.7 
15 y.f.8 
16 y.f.9 
dtype: object

来源

2016-04-21 14:23:27

我明白了这一点（用不太复杂的方式，使用'df.fillna（）'），但是我们的解决方案存在一个主要问题。 '6'应该是'x.d'，'9'应该是'y'，等等 - 我们填充那些不应该被填充的NA。我认为在'fillna（）'前面必须有一个步骤，它在parent_n <> parent_n-1'的每个单元格中用'''替换NAs。 –

我开始认为'awk'更适合这个问题。 –

那么，我终于来到这个解决方案，使用@DSM的一些技巧。

它只有一个临时变量，主要用布尔型掩码来解决问题。

# bool mask for empty cells that have non-empty cell before them 
nofills = (df.iloc[:,:3] == 'x').cumsum(axis=1) & ((df.iloc[:,:3] == 'x') == False) > 0 

# fill these with empty strings 
df[nofills] = '' 

# replace 'x'es with values from column D, ffill up NaNs then concat together into a new column 
df['solution2'] = df.iloc[:,:3].where(df.iloc[:,:3] != 'x', df.D, axis=0).ffill().apply(''.join, axis=1) 

print df

结果：

 A B C D solution solution2 
0  x   x  x   x 
1 NaN x  a  xa  xa 
2 NaN x  b  xb  xb 
3 NaN x  c  xc  xc 
4 NaN NaN x 1  xc1  xc1 
5 NaN NaN x 2  xc2  xc2 
6 NaN x  d  xd  xd 
7 NaN NaN x 3  xd3  xd3 
8 NaN NaN x 4  xd4  xd4 
9  x   y  y   y 
10 NaN x  e  ye  ye 
11 NaN NaN x 5  ye5  ye5 
12 NaN NaN x 6  ye6  ye6 
13 NaN x  f  yf  yf 
14 NaN NaN x 7  yf7  yf7 
15 NaN NaN x 8  yf8  yf8 
16 NaN NaN x 9  yf9  yf9

任何评论/建议是高度赞赏。

来源

2016-05-03 16:53:43

有条件地将列A，B，C中的值替换为列D中的值

回答

相关问题