蟒蛇大熊猫合并文本的两行或多行成一条线

我有类似下面的文本数据的数据帧，蟒蛇大熊猫合并文本的两行或多行成一条线

name | address     | number 
1 Bob bob      No.56 
2   @gmail.com   
3 Carly [email protected]   No.90 
4 Gorge [email protected]  
5   .com     
6          No.100

，并希望使它像这个帧。

name | address    | number 
1 Bob [email protected]   No.56 
2 Carly [email protected]   No.90     
3 Gorge [email protected]   No.100

我正在使用熊猫来读取文件，但不知道如何使用合并或concat。

来源

2017-02-15 TTaa

在name列的情况下，由独特的价值观，

print df 

    name   address number 
0 Bob    bob No.56 
1 NaN  @gmail.com  NaN 
2 Carly [email protected] No.90 
3 Gorge  [email protected]  NaN 
4 NaN    .com  NaN 
5 NaN    NaN No.100 

df['name'] = df['name'].ffill() 
print df.fillna('').groupby(['name'], as_index=False).sum() 

    name   address number 
0 Bob [email protected] No.56 
1 Carly [email protected] No.90 
2 Gorge [email protected] No.100

你可能需要ffill()，bfill()，[::-1]，.groupby('name').apply(lambda x: ' '.join(x['address']))，strip()，lstrip()，rstrip()，replace()种事情扩展上面的代码更复杂的数据。

来源

2017-02-15 04:19:18 su79eu7k

如果要转换性行的数据帧（每列中可能有NaN条目），则可能没有直接的pandas方法。

你需要一些代码在name列赋值，使大熊猫能够知道bob的分离行和@gmail.com属于同一用户Bob。

您可以使用fillna或ffill方法填写第name列中的每个空条目，请参阅pandas dataframe missing data。

df ['name'] = df['name'].ffill() 

# gives 
    name address number 
0 Bob bob No.56 
1 Bob @gmail.com 
2 Carly [email protected] No.90 
3 Gorge [email protected] 
4 Gorge .com  
5 Gorge  No.100

然后你可以使用groupby和sum作为聚合功能。

df.groupby(['name']).sum().reset_index() 

# gives 
    name address number 
0 Bob [email protected] No.56 
1 Carly [email protected] No.90 
2 Gorge [email protected] No.100

您可能会发现NaN和空白有用之间的转换，见Replacing blank values (white space) with NaN in pandas和pandas.DataFrame.fillna。

来源

2017-02-15 04:02:16

蟒蛇大熊猫合并文本的两行或多行成一条线

回答

相关问题