split-apply-combine

-1热度

1回答

我正在执行拆分应用组合以查找每个成员的总数量。我需要的数据框应该有14列：MemberID, DSFS_0_1, DSFS_1_2, DSFS_2_3, DSFS_3_4, DSFS_4_5, DSFS_5_6, DSFS_6_7, DSFS_7_8, DSFS_8_9, DSFS_9_10, DSFS_10_11, DSFS_11_12, DrugCount。但是，我没有得到第14个（DrugC

1热度

2回答

pandas combine_first导致更多行数

在以下数据中，我需要将'DATE'列中的日期更改为CLOCKDATETIME小时小于'4:00'的前一日期（日期 - 1天）小时。我已经达到了可以获得小于'4:00'小时的行并更改日期并将结果与输入结合起来的点，但是我没有得到期望的结果，对于输入的29行数据我得到的最后结果是41行，其中行数保持不变。如何组合数据框并获得所需的结果（行数应与输入行保持一致）？样本数据以CSV格式： DATE,

3热度

1回答

熊猫时间戳差值变换

我有一个数据帧与一个整数值，SESSION_ID，事件和TIME_STAMP看起来像这样： In [41]: df = pd.DataFrame(data={'session_id': np.sort(np.random.choice(np.arange(3), 11)), 'event': np.random.choice(['A', 'B', 'C', 'D'], 11), 'time_sta

1热度

2回答

Python Pandas在DataFrame中汇总系列数据

在一个数据框中，我尝试将split-apply-combine与包含系列数据元素的列进行拆分。（我已经搜查SO但没有发现有关的数据帧中的一系列事情。）数据帧： import pandas as pd from pandas import Series, DataFrame import numpy as np ex = {'account': [1, 1, 1, 2, 2],

0热度

1回答

按组处理列表清单

我想处理清单列表。具体而言，我想通过分组变量（每个列表的第一个成员）提取每个列表的第三个成员的数据框，然后使用诸如mean（），median（），sd（），length（）等几个函数该组中的数据。输出然后在数据帧返回，看起来像： Grp mean sd ... a 5.26 ... ... b 6.25 ... ... #fake data test<-list( #membe

2热度

3回答

获取每列值的最常见列

我想要每个数最常用的字母。我尝试了各种各样的东西;不知道什么是正确的方式。 import pandas as pd from pandas import DataFrame, Series original = DataFrame({ 'letter': {0: 'A', 1: 'A', 2: 'A', 3: 'B', 4: 'B'}, 'number': {0: '01

0热度

2回答

操作上基于可变

列我有以下数据 df <- structure(list(year = c(2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L,

3热度

3回答

如何使用dplyr

算上嵌套data_frames行下面是一个愚蠢的例子数据帧： df <- data_frame(A = c(rep(1, 5), rep(2, 4)), B = 1:9) %>% group_by(A) %>% nest() ，看起来像这样： > df # A tibble: 2 × 2 A data <dbl> <list> 1 1

1热度

1回答

用R计算复合回报ID

我想计算一个CAGR值，定义为（Ending/Beginning）^（1 /年数）-1。我有一个df，有列“股票”，“日期”，“Annual.Growth.Rate”。要快速注意到：我正在尝试使用滞后函数来做到这一点，但是，我无法在每只股票的开头更改递归公式。它会更有意义看输入： structure(list(Stock = structure(c(1L, 1L, 1L, 1L, 1L, 1L,

0热度

1回答

R - 条件IF减号每行匹配条件

我的数据集包含一个product类型的列和purchase数量的列。我希望能够从每行的实际purchase中减去每个product类型的平均purchase数量。我有一个数据集，看起来大致是这样的 library(dplyr) set.seed(42) product <- paste("prod - " , sample(c("A", "B", "C", "D"), size = 15,