categorical-data

1热度

1回答

我有20列的训练数据集，所有这一切都是我所使用的训练模式的因素，我一直在给定的测试数据集上，我不得不申请我的预测和提交模型。我正在做初步的数据探索，只是出于好奇心检查了训练数据和测试数据水平的水平，因为我们正在处理所有分类变量。令我沮丧的是，大多数类别（变量）在训练中有不同的级别测试数据集。例如 table(train$cap.shape) #training data column leve

0热度

1回答

ValueError：不能与CategoricalIndex一起使用

我正在使用熊猫0.18。这种失败 cat_fields[f[0]].add_categories(s,inplace=True) 然而docs说 inplace : boolean (default: False) Whether or not to add the categories inplace or return a copy of this categorical with ad

2热度

1回答

错误的位置与大熊猫和类别列

问题：使用where与分类列的数据帧条款产生ValueError异常：尺寸数目错误我只是不能找出我做错了。 df=pd.read_csv("F:/python/projects/mail/Inbox_20160911-1646/rows.csv",header=0,sep=",",quotechar="'",quoting=1) df.where(df > 100) # WORKS !!!!

2热度

1回答

MCMCglmm中“特质”的含义

像this post我在努力处理MCMCglmm的符号，尤其是trait的含义。我的代码IST以下 library("MCMCglmm") set.seed(123) y <- sample(letters[1:3], size = 100, replace = TRUE) x <- rnorm(100) id <- rep(1:10, each = 10) dat <- data.f

2热度

1回答

如何枢轴熊猫DataFrame列创建二进制“价值表”？

我有以下的熊猫数据框： import pandas as pd df = pd.read_csv("filename.csv") df A B C D E 0 a 0.469112 -0.282863 -1.509059 cat 1 c -1.135632 1.212112 -0.173215 dog 2 e 0.119209 -1.044236 -0.86184

0热度

2回答

geom_vline在x轴上的垂直线与分类数据：ggplot2

我有类中排序的数据，如本文所述： https://www.r-bloggers.com/from-continuous-to-categorical/ 这可以更容易地查看哪些值是常见的。创建这些类之后，我想创建一个条形图与不同类别，这是我做下面的示例代码的频率： set.seed(1) df.v <- data.frame(val = rnorm(1000, mean(4, sd=2))) d

0热度

1回答

[R ifelse变化因子值成指数

我，当我，使用R遇到了一个奇怪的问题，我使用data.table：在这里，当我试图转换这些省500下数到“其他”时，输出改变所述顶端计数省成索引号 df <- fact_data[,.N,Province][N >= 500]$Province df fact_data[,Province := ifelse(Province %in% df, fact_data$Province, "Ot

2热度

1回答

熊猫投所有对象列于

类别我想有公顷优雅功能投所有对象列在大熊猫数据帧类别 df[x] = df[x].astype("category")执行类型投 df.select_dtypes(include=['object'])将子选择所有类别的列。但是这会导致其他列丢失/需要手动合并。有没有一种解决方案“就地运作”或不需要手动投射？编辑我要寻找类似http://pandas.pydata.org/pandas-d

4热度

1回答

随机效应变量是否会自动作为R中lmer（或lme）中的因子？

据我所知，具有混合效果模型作为随机效果连续或数字变量没有多大意义（例如，请参阅here）。但我不知道是如果lme4::lmer或R中nlme::lme有意阻止你这样做...... 具体来说，就是我要问的是：如果我提供lmer（或lme）任何非因子（非分类）变量作为随机效应，函数是否会自动将其作为一个因子来处理？插入factor()直接进入11聚物（如使用时lm通常的方法）产生以下错误：虽然上述

2热度

1回答

Python将字符串转换为分类 - numpy

我拼命尝试在下面的数据集中更改我的字符串变量day,car2。 <class 'pandas.core.frame.DataFrame'> Int64Index: 23653 entries, 0 to 23652 Data columns (total 7 columns): day 23653 non-null object clustDep 23653 non-null i