split-apply-combine

    -1热度

    1回答

    我正在执行拆分应用组合以查找每个成员的总数量。我需要的数据框应该有14列:MemberID, DSFS_0_1, DSFS_1_2, DSFS_2_3, DSFS_3_4, DSFS_4_5, DSFS_5_6, DSFS_6_7, DSFS_7_8, DSFS_8_9, DSFS_9_10, DSFS_10_11, DSFS_11_12, DrugCount。但是,我没有得到第14个(DrugC

    1热度

    2回答

    在以下数据中,我需要将'DATE'列中的日期更改为CLOCKDATETIME小时小于'4:00'的前一日期(日期 - 1天)小时。我已经达到了可以获得小于'4:00'小时的行并更改日期并将结果与​​输入结合起来的点,但是我没有得到期望的结果,对于输入的29行数据我得到的最后结果是41行,其中行数保持不变。如何组合数据框并获得所需的结果(行数应与输入行保持一致)? 样本数据以CSV格式: DATE,

    3热度

    1回答

    我有一个数据帧与一个整数值,SESSION_ID,事件和TIME_STAMP看起来像这样: In [41]: df = pd.DataFrame(data={'session_id': np.sort(np.random.choice(np.arange(3), 11)), 'event': np.random.choice(['A', 'B', 'C', 'D'], 11), 'time_sta

    1热度

    2回答

    在一个数据框中,我尝试将split-apply-combine与包含系列数据元素的列进行拆分。 (我已经搜查SO但没有发现有关的数据帧中的一系列事情。) 数据帧: import pandas as pd from pandas import Series, DataFrame import numpy as np ex = {'account': [1, 1, 1, 2, 2],

    0热度

    1回答

    我想处理清单列表。具体而言,我想通过分组变量(每个列表的第一个成员)提取每个列表的第三个成员的数据框,然后使用诸如mean(),median(),sd(),length()等几个函数该组中的数据。输出然后在数据帧返回,看起来像: Grp mean sd ... a 5.26 ... ... b 6.25 ... ... #fake data test<-list( #membe

    2热度

    3回答

    我想要每个数最常用的字母。我尝试了各种各样的东西;不知道什么是正确的方式。 import pandas as pd from pandas import DataFrame, Series original = DataFrame({ 'letter': {0: 'A', 1: 'A', 2: 'A', 3: 'B', 4: 'B'}, 'number': {0: '01

    0热度

    2回答

    列我有以下数据 df <- structure(list(year = c(2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L,

    3热度

    3回答

    算上嵌套data_frames行下面是一个愚蠢的例子数据帧: df <- data_frame(A = c(rep(1, 5), rep(2, 4)), B = 1:9) %>% group_by(A) %>% nest() ,看起来像这样: > df # A tibble: 2 × 2 A data <dbl> <list> 1 1

    1热度

    1回答

    我想计算一个CAGR值,定义为(Ending/Beginning)^(1 /年数)-1。 我有一个df,有列“股票”,“日期”,“Annual.Growth.Rate”。要快速注意到:我正在尝试使用滞后函数来做到这一点,但是,我无法在每只股票的开头更改递归公式。它会更有意义看输入: structure(list(Stock = structure(c(1L, 1L, 1L, 1L, 1L, 1L,

    0热度

    1回答

    我的数据集包含一个product类型的列和purchase数量的列。我希望能够从每行的实际purchase中减去每个product类型的平均purchase数量。 我有一个数据集,看起来大致是这样的 library(dplyr) set.seed(42) product <- paste("prod - " , sample(c("A", "B", "C", "D"), size = 15,