pandas-groupby

    6热度

    3回答

    我有一个数据框,每年的课程名称。我需要找到个月时间,从今年开始到2016年 from io import StringIO import pandas as pd u_cols = ['page_id','web_id'] audit_trail = StringIO(''' year_id | web_id 2012|efg 2013|abc 2014| xyz 2015|

    0热度

    2回答

    我想拿出以下,基于前三个第4列的另一列: user job time Rank A print 1559 2 A print 1540 2 A edit 1520 1 A edit 1523 1 A deliver 9717 3 B edit 1717 2 B edit 1716 2 B edit 1715 2 B deliver 1527 1 B deliver 1524 1

    0热度

    2回答

    我对Python熊猫相当陌生,而且我有问题让熊猫人GroupBy与transform结合起来,以我想要的方式行事。我一直无法找到已发布的答案,但我可能错过了一些东西。 我有大量条目的数据帧,结构类似如下: GLT_City = pd.read_csv('GlobalLandTemperaturesByCity.csv', sep=',') GLT_City.head() AvgTem

    2热度

    1回答

    我有一个DataFrame与每行报纸文章的元数据。我想这些组分成每月块,再算上一列(称为type)的值: monthly_articles = articles.groupby(pd.Grouper(freq="M")) monthly_articles = monthly_articles["type"].value_counts().unstack() 这工作得很好,年组,但是当我尝试按

    0热度

    1回答

    我想按Id和Vehicle进行分组,然后只返回拍卖只有“合并抢救”和“合并抢救API”值的车辆。拥有除这两种类型以外的拍卖的车辆将被过滤掉。我怎样才能做到这一点? 数据: Id Vehicle Auction Offer 10 1984 Porsche 944 Copart 100 10 1984 Porsche 944 Merged Salvage 200 10 198

    1热度

    2回答

    在熊猫中,我一直在寻找一种通用流程来按特定列对数据框进行分组,对这些组执行不重要的操作,然后再次重组这些组回到一个大的数据框(通过有效地堆叠在彼此之上)。 想象我有一个数据帧df: +----+-------+---+---+---+ | | A | B | C | D | +----+-------+---+---+---+ | 0 | Green | 1 | 4 | 5 | | 1 |

    2热度

    3回答

    后索引数据帧我有一个看起来像这样的数据帧: Id Category Score 1 M 0.2 2 C 0.4 2 M 0.3 1 C 0.1 2 M 0.3 1 M 0.2 1 C 0.1 1 C 0.1 2 C 0.4 我想组由Id和Category,然后找到最大打分并创建一个名为Category_Label的新变量,其行数等于最大得分

    0热度

    2回答

    我有数据帧 df = pd.DataFrame({'member_id': [111, 111, 111, 111, 222, 222, 333, 333], 'event_duration': [12, 242, 3, 21, 4, 76, 34, 12], 'period': [1, 2, 2, 2, 3, 3, 4, 4]}) event_duration member_id p

    0热度

    1回答

    给定一个熊猫时间序列数据帧由分组丢失的数据“UUT” df Out[64]: UUT Sum Date_Time 2017-04-28 18:48:16 uut-01 2 2017-04-28 18:48:18 uut-02 2 2017-04-28 18:48:19 uut-03 2 我想使用重新索引来创建以1秒间隔的时间系列,和在所述间隙与0值填仅列

    1热度

    1回答

    我有一个df有几列:'小时','天','星期','月','年'和'价值'。我已经“周”和“时间”与“价值”寻找均值()进行分组: df_group = df.groupby(['week','hour']).value.mean().reset_index() 现在我想申请的是平均值为每星期每一个小时的单独列。有任何想法吗? 提前谢绝!