dummy-variable

    -1热度

    2回答

    我是SAS新手,想检查数据集中变量的所有条目是否满足条件(即= 1)并仅返回一个虚拟变量0 pr一个取决于变量中的所有条目是1还是至少一个不是1. 任何想法该怎么做? IF colvar = 1 THEN dummy_variable = 1 创建与原始变量大小相同的另一个变量dummy_variable。 谢谢

    8热度

    3回答

    我正在使用两个单独的训练和测试集建立python中的预测模型。训练数据包含数字类型的分类变量,例如邮政编码[91521,23151,12355,...],以及字符串分类变量,例如城市['芝加哥','纽约','洛杉矶' ...]。为了训练数据,我首先使用'pd.get_dummies'来获得这些变量的虚拟变量,然后用变换后的训练数据拟合模型。 我对测试数据做了相同的转换,并使用训练好的模型预测结果。

    1热度

    3回答

    我能够在Python中执行此数据ETL工作。但是,因为我需要与R集成,而我是R的新手,所以我在这里发布问题。我想爆炸基于START_DATE日期和结束日期的日期,并做累积频率求和自变量“类型” 原始数据有3列与变量名日期,结束日期和导出虚拟变量类型 start_date, end_date, type 1/1/2016, 1/3/2016, A 1/2/2016, 1/2/2016, B 1

    0热度

    1回答

    我有一个表,如下所示: yel <- data.table(id=c(1,2,3)) yel$names[1] <- "\"parking space\", \"dining\", \"3bh\"" yel$names[2] <- "\"parking\" , \"outdoor\"" yel$names[3] <- "\"Hello!\",\"dining room\",\"3bh\""

    0热度

    1回答

    我刚开始使用Tableau,并遇到问题。我想创建一个没有还清贷款的百分比的直方图。我创建了一个名为'Delinquent num'的变量,将未偿还的贷款编号为1,其余为0。然后,我计算了已偿还贷款的百分比(Delinquent pct)为(SUM([Delinquent num] )/ COUNT([Delinquent num]))* 100。 我进入片作为变量的行上该变量和得到 即细;约18%

    3热度

    7回答

    我有一个数据帧结构如下 test <- data.frame(col = c('a; ff; cc; rr;', 'rr; a; cc; e;')) 现在我想创建这样的数据帧其中包含了每种测试数据帧中的唯一值的命名列。独特的价值是';'结尾的价值角色并以空间开始,不包括空间。然后,对于每个列中的各行的我希望与填充虚设列或为1或0。正如下面 data.frame(a = c(1,1), ff =

    1热度

    3回答

    我知道Pandas有一个get_dummy函数,您可以使用该函数将分类变量转换为DataFrame中的虚拟变量。我想要做的是略有不同。 我有一个包含百分比值从0.0到100.0的列。我需要将其转换为任何值大于等于10.0且任意值为0的列为1的列< 10.0。有没有一个很好的方法可以在这里重新调整get_dummy或者我将不得不构建一个循环来完成它?

    -3热度

    1回答

    Ciao的所有人, 我想创建R的虚拟变量,所以我有意大利的地区列表,以及一个名为黑手党的变量。黑手党变量在黑手党渗透率高的地区编码为1,黑手党渗透率低的地区编码为0。现在 ,我想创建一个只考虑与高水平黑手党的地区虚设。 (= 1)

    7热度

    3回答

    我有一个分类变量保持列表字符串,具有可变长度的数据帧的虚拟变量(这是很重要的,否则这个问题将是this重复或this),例如: df <- data.frame(x = 1:5) df$y <- list("A", c("A", "B"), "C", c("B", "D", "C"), "E") df x y 1 1 A 2 2 A, B 3 3 C 4 4 B, D, C

    0热度

    1回答

    我在数据集中有几个高基数变量,并且想将它们转换为假数字。他们都有超过500个关卡。当我使用熊猫get_dummies时,矩阵变得如此之大,我的程序崩溃了。 pd.get_dummies(data, sparse=True, drop_first=True, dummy_na=True) 我不知道更好的方法来处理,除了使用一个热码的高基数因素,但它增加了这么多,该内存不能处理它的数据的大小。有人