missing-data

    0热度

    1回答

    我需要基于分组填写基于先前值和/或前向值的缺失值。我想用dplyr完成这个工作(虽然data.table解决方案也会受到欢迎)。 的样本数据: testing <- tibble(key = c(10,10,10,10,10,10,20,20,20,20,20,20), year = c(15,15,16,16,17,17,15,15,16,16,17,17),

    1热度

    1回答

    我有一个面板数据的数据框,我想获得基于公式的所有完整的观察结果。 虽然从公式中提取变量非常简单(使用get_all_vars),但我还想在公式中引入延迟(在本例中为dplyr包)。 让我们的表现公式: y ~ x1 + lag(x2, 1) + lag(x3, 2) 和数据帧 y x1 x2 x3 1 2 3 NA NA 2 3 2 2 2 3 2 6 5 3 4 5 8 6 9 5

    1热度

    1回答

    说明 我看了表有三列:ID,时间和位置创建一个数据帧。 ID是第一个索引,时间是第二个索引。我希望时间频率是五分钟,如果相应时间没有数据,请将位置设置到最后一个位置(请参见下表)。 数据框现在 ID time place 001 00:00:00 1 00:15:00 3 002 00:05:00 2 希望数据框获得 ID time place 001 00:00

    0热度

    1回答

    某些值与组有很大不同,因为缺少行并且数据不连续,所以我的diffVal异常。 > df Date diffVal1 diffVal2 1 2017-05-31 04:01:00 718 483 2 2017-05-31 05:01:00 704 477 3 2017-05-31 06:01:00 741 478 4 2017-05-31 07:01:00 8

    0热度

    2回答

    我想在R中做一些显然非常简单的事情(对不起,但我对data.tables非常新手),但我没有设法得到正确的解决方案。我试着删除特定列与NA值的行(“Ground_Tru”这是我尝试为止; all_data <- fread ("all_vbles.txt",header=TRUE, na.strings=c("NA","N/A","")) na.omit (all_data, cols="Gro

    1热度

    1回答

    我有一个泰坦尼克号数据集。它具有属性和我正在努力 1.年龄 2.Embark(从哪个港口乘客上船..总共有3个港口...... S,Q和C) 3.生存(0没有生还,1为生存) 我过滤了无用的数据。然后我需要填写Age中的空值。所以我计算了多少乘客幸存下来,并没有在每次登船后幸存下来,即S,Q和C 我发现从每个S,Q和C端口出发后幸存的和没有幸存的乘客的平均年龄。但是现在我不知道如何在原始泰坦年龄列

    2热度

    1回答

    我还是R的新手。从这个示例表中,您可以清楚地看到差异列上有一些累计值。因此,如何将这些值传播到NA值,这些值会将许多行累积到一行中,因为我的设备在某些时段记录值出现缺失值时出现问题,但他们在未来一小时仍可以获得正确的值。 我的示例数据: DateTime diff1 diff2 1 2017-06-11 05:00:00 366 25 2 2017-06-1

    2热度

    1回答

    我正在用熊猫数据框打开,我想将其转换为橙色数据表来补偿丢失的值。 我的数据框看起来像 locationId rank Rating type value 1 1 10 shop 2.668 2 4 8 store 3.921 3 3 NAN shop 3.122 其中排名为序1和5.Type是分类与类型的车间,商店等与评级之间的重复值的整数type.value是浮点。 我

    2热度

    1回答

    样本输入制表符分隔的文本文件,请注意此源文件中有不良数据,第3行末尾的封闭“ 。因此,有1个完整的空白行,然后只用双引号字符一条线,然后继续保持良好的数据对下一行。 id ca cb cc cd 1 hi bye hey nope 2 ab cd ef "quoted text here" 3 gh ij kl "quoted text but end quote

    0热度

    1回答

    我在熊猫数据框中有两个布尔列A和B,每个列都有缺失数据(由NaN表示)。我想要的是对两列执行AND运算,但是如果原始列中的任何一列为NaN,我希望得到的布尔列为NaN。我有以下表格: A B 0 True True 1 True False 2 False True 3 True NaN 4 NaN NaN 5 NaN False 现在,当我做df.A & df.B我想: 0