dummy-variable

-1热度

2回答

我是SAS新手，想检查数据集中变量的所有条目是否满足条件（即= 1）并仅返回一个虚拟变量0 pr一个取决于变量中的所有条目是1还是至少一个不是1. 任何想法该怎么做？ IF colvar = 1 THEN dummy_variable = 1 创建与原始变量大小相同的另一个变量dummy_variable。谢谢

8热度

3回答

在训练和测试数据中保持相同的虚拟变量

我正在使用两个单独的训练和测试集建立python中的预测模型。训练数据包含数字类型的分类变量，例如邮政编码[91521,23151,12355，...]，以及字符串分类变量，例如城市['芝加哥'，'纽约'，'洛杉矶' ...]。为了训练数据，我首先使用'pd.get_dummies'来获得这些变量的虚拟变量，然后用变换后的训练数据拟合模型。我对测试数据做了相同的转换，并使用训练好的模型预测结果。

1热度

3回答

虚拟变量在R中的日期累计总和

我能够在Python中执行此数据ETL工作。但是，因为我需要与R集成，而我是R的新手，所以我在这里发布问题。我想爆炸基于START_DATE日期和结束日期的日期，并做累积频率求和自变量“类型” 原始数据有3列与变量名日期，结束日期和导出虚拟变量类型 start_date, end_date, type 1/1/2016, 1/3/2016, A 1/2/2016, 1/2/2016, B 1

0热度

1回答

转换逗号分隔的列表，以虚拟变量

我有一个表，如下所示： yel <- data.table(id=c(1,2,3)) yel$names[1] <- "\"parking space\", \"dining\", \"3bh\"" yel$names[2] <- "\"parking\" , \"outdoor\"" yel$names[3] <- "\"Hello!\",\"dining room\",\"3bh\""

0热度

1回答

tableau：为0和1之间的变量绑定创建容器

我刚开始使用Tableau，并遇到问题。我想创建一个没有还清贷款的百分比的直方图。我创建了一个名为'Delinquent num'的变量，将未偿还的贷款编号为1，其余为0。然后，我计算了已偿还贷款的百分比（Delinquent pct）为（SUM（[Delinquent num] ）/ COUNT（[Delinquent num]））* 100。我进入片作为变量的行上该变量和得到即细;约18％

3热度

7回答

Dummify字符列，并找到独特的价值

我有一个数据帧结构如下 test <- data.frame(col = c('a; ff; cc; rr;', 'rr; a; cc; e;')) 现在我想创建这样的数据帧其中包含了每种测试数据帧中的唯一值的命名列。独特的价值是';'结尾的价值角色并以空间开始，不包括空间。然后，对于每个列中的各行的我希望与填充虚设列或为1或0。正如下面 data.frame(a = c(1,1), ff =

1热度

3回答

从值列创建虚拟变量列

我知道Pandas有一个get_dummy函数，您可以使用该函数将分类变量转换为DataFrame中的虚拟变量。我想要做的是略有不同。我有一个包含百分比值从0.0到100.0的列。我需要将其转换为任何值大于等于10.0且任意值为0的列为1的列< 10.0。有没有一个很好的方法可以在这里重新调整get_dummy或者我将不得不构建一个循环来完成它？

-3热度

1回答

哑变量R中

Ciao的所有人，我想创建R的虚拟变量，所以我有意大利的地区列表，以及一个名为黑手党的变量。黑手党变量在黑手党渗透率高的地区编码为1，黑手党渗透率低的地区编码为0。现在，我想创建一个只考虑与高水平黑手党的地区虚设。（= 1）

7热度

3回答

R：创建一个基于列表的分类变量*

我有一个分类变量保持列表字符串，具有可变长度的数据帧的虚拟变量（这是很重要的，否则这个问题将是this重复或this），例如： df <- data.frame(x = 1:5) df$y <- list("A", c("A", "B"), "C", c("B", "D", "C"), "E") df x y 1 1 A 2 2 A, B 3 3 C 4 4 B, D, C

0热度

1回答

pandas get_dummies使用一种热门编码创建高基数变量创建了太多新功能

我在数据集中有几个高基数变量，并且想将它们转换为假数字。他们都有超过500个关卡。当我使用熊猫get_dummies时，矩阵变得如此之大，我的程序崩溃了。 pd.get_dummies(data, sparse=True, drop_first=True, dummy_na=True) 我不知道更好的方法来处理，除了使用一个热码的高基数因素，但它增加了这么多，该内存不能处理它的数据的大小。有人