missing-data

    3热度

    1回答

    我有一个包含缺失值的混合数据类型(数字, 字符,因子,序数因子)的大型数据库,而我 尝试创建for循环以替代缺失值 如果使用数字,则使用相应列的平均值,如果使用字符/因子,则使用模式。 这是我到现在为止: #fake array: age<- c(5,8,10,12,NA) a <- factor(c("aa", "bb", NA, "cc", "cc")) b <- c("banana",

    39热度

    4回答

    我在一个大的数据集工作,与一些行与港定居人士及其他用空格: df <- data.frame(ID = c(1:7), home_pc = c("","CB4 2DT", "NE5 7TH", "BY5 8IB", "DH4 6PB","MP9 7GH","KN4 5GH"), start_pc = c(NA,"Home", "FC5 7YH","Ho

    17热度

    3回答

    我有大量缺失值的巨大矩阵。我想获得变量之间的关联。 是解决 cor(na.omit(matrix)) 比低于更好? cor(matrix, use = "pairwise.complete.obs") 我已经选择了只有超过20%缺失值的变量。 2.哪种方法最合理?

    25热度

    7回答

    scikit-learn中可能缺少值吗?他们应该如何代表?我找不到任何有关这方面的文件。

    55热度

    9回答

    这是我写的一小段代码,用于报告数据框中缺失值的变量。我试图想到一个更优雅的方式来做到这一点,也许返回data.frame,但我坚持: for (Var in names(airquality)) { missing <- sum(is.na(airquality[,Var])) if (missing > 0) { print(c(Var,missing))

    1热度

    2回答

    我正在下载200个字符块中的在线.dat文件,并且一些数据丢失。大多数,但不是所有的块完全下载,但有些只是部分下载,当我将接收到的数据直接打印到本地文本文件时,缺少字符。 谢谢。 我正在使用的程序如下。 #include <stdio.h> #include <stdlib.h> #include <sys/types.h> #include <sys/socket.h> #include

    61热度

    2回答

    我想,以适应随机森林模型,但是当我打电话 library(randomForest) cars$speed[1] <- NA # to simulate missing value model <- randomForest(speed ~., data=cars) 我收到以下错误 Error in na.fail.default(list(speed = c(NA, 4, 7, 7, 8

    8热度

    2回答

    我在R中有一个因子,具有NA级别。 set.seed(1) x <- sample(c(1, 2, NA), 25, replace=TRUE) x <- factor(x, exclude = NULL) > x [1] 1 2 2 <NA> 1 <NA> <NA> 2 2 1 1 [12] 1 <NA> 2 <NA> 2 <NA> <NA> 2 <NA> <NA> 1 [23] 2

    4热度

    1回答

    我想这一点: 而且我认为通过na.action=na.pass以箱线图会让NA在 显示分组名称。下面是一些示例代码: #Build a fake dataset set.seed(212012) nn = 100 sample_data <- data.frame(score = c(rpois(nn, 1), rpois(nn, 2), rpois(nn, 1.

    2热度

    1回答

    我有一些数据,看起来像这样: ID lat long university date cat2 cat3 cat4 ... 00001 32.001 -64.001 MIT 2011-07-01 xyz foo NA ... 00002 45.783 67.672 Harvard 2011-07-01 abc NA lion ... 00003 54.823 78.76