missing-data

    0热度

    1回答

    我在寻找一般社会调查,并试图找出是否有一个变量的一个级别比在另一个级别比例更多的NAs。这是我的df的头。 year PartyBinary agekdbrn 1 1972 Other NA 2 1972 Democrat NA 3 1972 Other NA 我还没有看到这回答已经在这里,这似乎很奇怪。我尝试了几种方法,但它们似乎都会自动删除,或者简单地忽略NA数据。例如:

    1热度

    1回答

    我有一个包含约80个特征的.txt数据集,其中看起来"NA"被用作缺失值的指标以及特定的实际值序串特点,如: 什么是处理这个问题的最好方法? 默认情况下,熊猫将这些"NA"值转换为"nan"。我读了如何通过从列表中删除na_vals像"NA"因此停止这样的: na_vals = ['-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A', 'N/A',

    0热度

    1回答

    复制单元格下来,我需要改变这个表: 1 a b 0.689723476 0.149916917 a b 0.200907662 0.109557062 a b 0.684007597 0.703492299 a b 0.437375902 0.074223984 a b 0.090612241 0.146617232 a b 0.526821187

    -5热度

    3回答

    我正在研究功能中缺少许多值的机器学习问题。有100个功能,我想删除那些缺少太多值的功能(它可以是缺失值超过80%的功能)。我如何用Python做到这一点。 p.s.我的数据是一个熊猫数据框。

    0热度

    1回答

    data tt; input init $ ht wt sex $ time @@; if ht=. then short=' '; else if ht<170 then short='y'; else short='n'; if wt=. then heavy=' '; else if wt<80 then heavy='y'; else wt='n'; cards; qqq

    2热度

    2回答

    我有一个数据框与不少网址。但是,有些人失踪了。它基本如下所示: import pandas as pd import numpy as np csv = [{"url_1" : np.NaN, "url_2" : "https://www.mercedes-benz.de/content/germany/mpc/mpc_germany_website/de/home_mpc/passenger

    0热度

    1回答

    我有一个数据帧像下面 - time machine message 6 2017-08-07 05:24:31,955 solid qa : 6502444 20 2017-08-07 05:24:32,024 solid prod : 6502445 32 2017-08-07 05:24:32,033 solid qa : 6502445 44 2017-08-0

    0热度

    1回答

    信息的一个数据帧有两个数据集,A & B,如下所示: A <- data.frame(TICKER=c("00EY","00EY","00EY","00EY","00EY"), CUSIP=c(NA,NA,"48205A10","48205A10","48205A10"), OFTIC=c(NA,NA,"JUNO","JUNO","JUNO"), C

    1热度

    1回答

    我想从XLSX使用此数据: Fe Mg Al Si P S K Ca Ti 5 0.80 2.09 3.49 7.05 0.19 0.07 0.13 84.28 1.90 5 0.75 2.69 3.91 12.42 0.13 0.09 0.18 78.18 1.64 3 0.87 2.66 3.71 7.64 0.17 0.05 0.1

    1热度

    1回答

    完成SPSS初学者在这里。试图想出一个自定义表格,我真的很失落。我有几个变量,我想决赛桌的样子: Var_name N_valid N_missing N_categories Max_%_category Var1 X Y Z W Var2 A B C D 马克斯_%_类我的意思是重复的最值的百分比。因此,对于这个示例数据: data list