pandas-groupby

    0热度

    1回答

    比方说,我的数据框看起来是这样的: date,site,country_code,kind,ID,rank,votes,sessions,avg_score,count 2017-03-20,website1,US,0,84,226,0.0,15.0,3.370812,53.0 2017-03-21,website1,US,0,84,214,0.0,15.0,3.370812,53.0 20

    1热度

    2回答

    假设我们有按分钟指数时间序列如下: DF = Time (HH:MM) Value 01/01/2014 00:00 1 01/01/2014 00:01 2 01/01/2014 00:02 3 01/01/2014 00:03 4 ... 01/08/2014 00:00 5000 ... 我期待“组”数据集通过周,如下: DF2 = Week Val1 Val2 Val3

    0热度

    2回答

    我有一个熊猫数据框,看起来像这样: Area1 Area2 1 2 1 4 1 5 1 9 2 8 2 16 2 4 2 1 3 8 3 9 我如何转换“区域2”列,使之成为每个“区域1的值的列表“列 所以输出我希望是: Area1 Area2 1 2, 4,

    1热度

    2回答

    我正在为我的编码类在文档字符串中列出的这个问题工作。我将不胜感激任何关于优化我的代码的帮助,以及为什么尽管重置索引时仍然收到以下错误的任何解释。 import pandas as pd def beds_top_ten(df, facility_id): ''' INPUT: DataFrame, int OUTPUT: date Write a pand

    1热度

    1回答

    这是related to this question,但现在我需要找到存储在'YYYY-MM-DD'中的日期之间的差异。本质上,count列中的值之间的差异是我们需要的,但是按每行之间的天数标准化。 我的数据帧是: date,site,country_code,kind,ID,rank,votes,sessions,avg_score,count 2017-03-20,website1,US,0

    0热度

    1回答

    我有一个数据框,并应用了groupby方法。现在我有一个pandas.core.groupby.SeriesGroupBy,但我不能使用任何数据框方法。我怎样才能将它转换为可用的数据框? type(survivor) pandas.core.groupby.SeriesGroupBy 应用.groups它看起来像这样: {'C': Int64Index([ 1, 9, 19, 26, 30,

    1热度

    4回答

    我想知道如何做就取决于另一列的值的列之和(0或1) id area PP a 0,95999998 0 a 0,44 1 b 1,6900001 0 c 2 0 d 5,8499999 0 e 0,66000003 1 我可以找到每个区域ID surface_id = df.groupby("id")["area"].sum() 但我也希望是ID中的区域,如果PP = 1得到的

    1热度

    3回答

    我可以现在做熊猫以下,但我得到一个严峻的手指FutureWarning摇: grpd = df.groupby("rank").agg({ "mean": np.mean, "meian": np.median, "min": np.min, "max": np.max, "25th percentile": lambda x: np.percentile(x, 25),

    1热度

    1回答

    我有一个简单的初始数据框: ID, ATTRIBUTE 1, thing2 1, thing3 1, thing3 2, thing7 2, thing7 2, thing2 3, thing1 3, thing2 我有一个简单GROUPBY对象,我想创建哪里获得属性的模式(如果是多我打电话结果 'multithing'): mode = lambda x: x.mode()

    2热度

    1回答

    我想agg和功能cummax和cumsum找到为A相同值的列B滚动总和和滚动最大的df df = pd.DataFrame({'A': ['a', 'a', 'a', 'b', 'b', 'b', 'b'], 'B': [5, 2, 4, 7, 1, 11, 3]}) df_result = pd.DataFrame({'A': ['a', 'a', 'a', 'b', 'b', 'b', '