missing-data

3热度

1回答

我有一个包含缺失值的混合数据类型（数字，字符，因子，序数因子）的大型数据库，而我尝试创建for循环以替代缺失值如果使用数字，则使用相应列的平均值，如果使用字符/因子，则使用模式。这是我到现在为止： #fake array: age<- c(5,8,10,12,NA) a <- factor(c("aa", "bb", NA, "cc", "cc")) b <- c("banana",

39热度

4回答

删除空白值的行中的一个特定的列

我在一个大的数据集工作，与一些行与港定居人士及其他用空格： df <- data.frame(ID = c(1:7), home_pc = c("","CB4 2DT", "NE5 7TH", "BY5 8IB", "DH4 6PB","MP9 7GH","KN4 5GH"), start_pc = c(NA,"Home", "FC5 7YH","Ho

17热度

3回答

处理相关性计算的缺失值

我有大量缺失值的巨大矩阵。我想获得变量之间的关联。是解决 cor(na.omit(matrix)) 比低于更好？ cor(matrix, use = "pairwise.complete.obs") 我已经选择了只有超过20％缺失值的变量。 2.哪种方法最合理？

25热度

7回答

在scikits机器学习中缺少值

scikit-learn中可能缺少值吗？他们应该如何代表？我找不到任何有关这方面的文件。

55热度

9回答

报告data.frame中缺失值的优雅方法

这是我写的一小段代码，用于报告数据框中缺失值的变量。我试图想到一个更优雅的方式来做到这一点，也许返回data.frame，但我坚持： for (Var in names(airquality)) { missing <- sum(is.na(airquality[,Var])) if (missing > 0) { print(c(Var,missing))

1热度

2回答

使用C中的套接字在TCP传输中丢失数据

我正在下载200个字符块中的在线.dat文件，并且一些数据丢失。大多数，但不是所有的块完全下载，但有些只是部分下载，当我将接收到的数据直接打印到本地文本文件时，缺少字符。谢谢。我正在使用的程序如下。 #include <stdio.h> #include <stdlib.h> #include <sys/types.h> #include <sys/socket.h> #include

61热度

2回答

如何在R中创建具有缺失（NA）值的随机森林？

我想，以适应随机森林模型，但是当我打电话 library(randomForest) cars$speed[1] <- NA # to simulate missing value model <- randomForest(speed ~., data=cars) 我收到以下错误 Error in na.fail.default(list(speed = c(NA, 4, 7, 7, 8

8热度

2回答

按NA级别划分因子

我在R中有一个因子，具有NA级别。 set.seed(1) x <- sample(c(1, 2, NA), 25, replace=TRUE) x <- factor(x, exclude = NULL) > x [1] 1 2 2 <NA> 1 <NA> <NA> 2 2 1 1 [12] 1 <NA> 2 <NA> 2 <NA> <NA> 2 <NA> <NA> 1 [23] 2

4热度

1回答

当分组因子缺失值时，基线R中的boxplot可以显示'NA'吗？

我想这一点：而且我认为通过na.action=na.pass以箱线图会让NA在显示分组名称。下面是一些示例代码： #Build a fake dataset set.seed(212012) nn = 100 sample_data <- data.frame(score = c(rpois(nn, 1), rpois(nn, 2), rpois(nn, 1.

2热度

1回答

如何使用R使用地理邻近度来填写缺失的分类值？

我有一些数据，看起来像这样： ID lat long university date cat2 cat3 cat4 ... 00001 32.001 -64.001 MIT 2011-07-01 xyz foo NA ... 00002 45.783 67.672 Harvard 2011-07-01 abc NA lion ... 00003 54.823 78.76