pandas-groupby

6热度

3回答

我有一个数据框，每年的课程名称。我需要找到个月时间，从今年开始到2016年 from io import StringIO import pandas as pd u_cols = ['page_id','web_id'] audit_trail = StringIO(''' year_id | web_id 2012|efg 2013|abc 2014| xyz 2015|

0热度

2回答

Python的熊猫秩/排序基于该不同对每个输入

我想拿出以下，基于前三个第4列的另一列： user job time Rank A print 1559 2 A print 1540 2 A edit 1520 1 A edit 1523 1 A deliver 9717 3 B edit 1717 2 B edit 1716 2 B edit 1715 2 B deliver 1527 1 B deliver 1524 1

0热度

2回答

将熊猫群组合并转换为多索引数据框

我对Python熊猫相当陌生，而且我有问题让熊猫人GroupBy与transform结合起来，以我想要的方式行事。我一直无法找到已发布的答案，但我可能错过了一些东西。我有大量条目的数据帧，结构类似如下： GLT_City = pd.read_csv('GlobalLandTemperaturesByCity.csv', sep=',') GLT_City.head() AvgTem

2热度

1回答

在熊猫群组上使用value_counts时，如何忽略空系列？

我有一个DataFrame与每行报纸文章的元数据。我想这些组分成每月块，再算上一列（称为type）的值： monthly_articles = articles.groupby(pd.Grouper(freq="M")) monthly_articles = monthly_articles["type"].value_counts().unstack() 这工作得很好，年组，但是当我尝试按

0热度

1回答

根据大熊猫分组后的匹配字符串过滤数据

我想按Id和Vehicle进行分组，然后只返回拍卖只有“合并抢救”和“合并抢救API”值的车辆。拥有除这两种类型以外的拍卖的车辆将被过滤掉。我怎样才能做到这一点？数据： Id Vehicle Auction Offer 10 1984 Porsche 944 Copart 100 10 1984 Porsche 944 Merged Salvage 200 10 198

1热度

2回答

在Pandas中高效地分组，编辑和重新加入组

在熊猫中，我一直在寻找一种通用流程来按特定列对数据框进行分组，对这些组执行不重要的操作，然后再次重组这些组回到一个大的数据框（通过有效地堆叠在彼此之上）。想象我有一个数据帧df： +----+-------+---+---+---+ | | A | B | C | D | +----+-------+---+---+---+ | 0 | Green | 1 | 4 | 5 | | 1 |

2热度

3回答

组合对象上执行操作以及由此创建变量

后索引数据帧我有一个看起来像这样的数据帧： Id Category Score 1 M 0.2 2 C 0.4 2 M 0.3 1 C 0.1 2 M 0.3 1 M 0.2 1 C 0.1 1 C 0.1 2 C 0.4 我想组由Id和Category，然后找到最大打分并创建一个名为Category_Label的新变量，其行数等于最大得分

0热度

2回答

熊猫：GROUPBY

我有数据帧 df = pd.DataFrame({'member_id': [111, 111, 111, 111, 222, 222, 333, 333], 'event_duration': [12, 242, 3, 21, 4, 76, 34, 12], 'period': [1, 2, 2, 2, 3, 3, 4, 4]}) event_duration member_id p

0热度

1回答

GROUPBY时间序列填充0

给定一个熊猫时间序列数据帧由分组丢失的数据“UUT” df Out[64]: UUT Sum Date_Time 2017-04-28 18:48:16 uut-01 2 2017-04-28 18:48:18 uut-02 2 2017-04-28 18:48:19 uut-03 2 我想使用重新索引来创建以1秒间隔的时间系列，和在所述间隙与0值填仅列

1热度

1回答

Python熊猫适用值

我有一个df有几列：'小时'，'天'，'星期'，'月'，'年'和'价值'。我已经“周”和“时间”与“价值”寻找均值（）进行分组： df_group = df.groupby(['week','hour']).value.mean().reset_index() 现在我想申请的是平均值为每星期每一个小时的单独列。有任何想法吗？提前谢绝！