missing-data

0热度

1回答

我在寻找一般社会调查，并试图找出是否有一个变量的一个级别比在另一个级别比例更多的NAs。这是我的df的头。 year PartyBinary agekdbrn 1 1972 Other NA 2 1972 Democrat NA 3 1972 Other NA 我还没有看到这回答已经在这里，这似乎很奇怪。我尝试了几种方法，但它们似乎都会自动删除，或者简单地忽略NA数据。例如：

1热度

1回答

作为缺失值和有序特征值处理“NA”

我有一个包含约80个特征的.txt数据集，其中看起来"NA"被用作缺失值的指标以及特定的实际值序串特点，如：什么是处理这个问题的最好方法？默认情况下，熊猫将这些"NA"值转换为"nan"。我读了如何通过从列表中删除na_vals像"NA"因此停止这样的： na_vals = ['-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A', 'N/A',

0热度

1回答

R中

复制单元格下来，我需要改变这个表： 1 a b 0.689723476 0.149916917 a b 0.200907662 0.109557062 a b 0.684007597 0.703492299 a b 0.437375902 0.074223984 a b 0.090612241 0.146617232 a b 0.526821187

-5热度

3回答

如何在Python中删除具有太多缺失值的列

我正在研究功能中缺少许多值的机器学习问题。有100个功能，我想删除那些缺少太多值的功能（它可以是缺失值超过80％的功能）。我如何用Python做到这一点。 p.s.我的数据是一个熊猫数据框。

0热度

1回答

如果特定变量条件不同，缺少输出值

data tt; input init $ ht wt sex $ time @@; if ht=. then short=' '; else if ht<170 then short='y'; else short='n'; if wt=. then heavy=' '; else if wt<80 then heavy='y'; else wt='n'; cards; qqq

2热度

2回答

在熊猫中填写缺失值错误？

我有一个数据框与不少网址。但是，有些人失踪了。它基本如下所示： import pandas as pd import numpy as np csv = [{"url_1" : np.NaN, "url_2" : "https://www.mercedes-benz.de/content/germany/mpc/mpc_germany_website/de/home_mpc/passenger

0热度

1回答

如何检查python熊猫数据框特定列中的缺失值？

我有一个数据帧像下面 - time machine message 6 2017-08-07 05:24:31,955 solid qa : 6502444 20 2017-08-07 05:24:32,024 solid prod : 6502445 32 2017-08-07 05:24:32,033 solid qa : 6502445 44 2017-08-0

0热度

1回答

填充在缺失的数据与来自另一

信息的一个数据帧有两个数据集，A & B，如下所示： A <- data.frame(TICKER=c("00EY","00EY","00EY","00EY","00EY"), CUSIP=c(NA,NA,"48205A10","48205A10","48205A10"), OFTIC=c(NA,NA,"JUNO","JUNO","JUNO"), C

1热度

1回答

从Excel导入与熊猫，但缺少指数头

我想从XLSX使用此数据： Fe Mg Al Si P S K Ca Ti 5 0.80 2.09 3.49 7.05 0.19 0.07 0.13 84.28 1.90 5 0.75 2.69 3.91 12.42 0.13 0.09 0.18 78.18 1.64 3 0.87 2.66 3.71 7.64 0.17 0.05 0.1

1热度

1回答

定制spss表，缺失值信息和类别数

完成SPSS初学者在这里。试图想出一个自定义表格，我真的很失落。我有几个变量，我想决赛桌的样子： Var_name N_valid N_missing N_categories Max_%_category Var1 X Y Z W Var2 A B C D 马克斯_％_类我的意思是重复的最值的百分比。因此，对于这个示例数据： data list