categorical-data

    1热度

    1回答

    我有20列的训练数据集,所有这一切都是我所使用的训练模式的因素,我一直在给定的测试数据集上,我不得不申请我的预测和提交模型。 我正在做初步的数据探索,只是出于好奇心检查了训练数据和测试数据水平的水平,因为我们正在处理所有分类变量。令我沮丧的是,大多数类别(变量)在训练中有不同的级别测试数据集。 例如 table(train$cap.shape) #training data column leve

    0热度

    1回答

    我正在使用熊猫0.18。 这种失败 cat_fields[f[0]].add_categories(s,inplace=True) 然而docs说 inplace : boolean (default: False) Whether or not to add the categories inplace or return a copy of this categorical with ad

    2热度

    1回答

    问题:使用where与分类列的数据帧条款产生ValueError异常:尺寸 数目错误我只是不能找出我做错了。 df=pd.read_csv("F:/python/projects/mail/Inbox_20160911-1646/rows.csv",header=0,sep=",",quotechar="'",quoting=1) df.where(df > 100) # WORKS !!!!

    2热度

    1回答

    像this post我在努力处理MCMCglmm的符号,尤其是trait的含义。我的代码IST以下 library("MCMCglmm") set.seed(123) y <- sample(letters[1:3], size = 100, replace = TRUE) x <- rnorm(100) id <- rep(1:10, each = 10) dat <- data.f

    2热度

    1回答

    我有以下的熊猫数据框: import pandas as pd df = pd.read_csv("filename.csv") df A B C D E 0 a 0.469112 -0.282863 -1.509059 cat 1 c -1.135632 1.212112 -0.173215 dog 2 e 0.119209 -1.044236 -0.86184

    0热度

    2回答

    我有类中排序的数据,如本文所述: https://www.r-bloggers.com/from-continuous-to-categorical/ 这可以更容易地查看哪些值是常见的。创建这些类之后,我想创建一个条形图与不同类别,这是我做下面的示例代码的频率: set.seed(1) df.v <- data.frame(val = rnorm(1000, mean(4, sd=2))) d

    0热度

    1回答

    我,当我,使用R遇到了一个奇怪的问题,我使用data.table: 在这里,当我试图转换这些省500下数到“其他”时,输出改变所述顶端计数省成索引号 df <- fact_data[,.N,Province][N >= 500]$Province df fact_data[,Province := ifelse(Province %in% df, fact_data$Province, "Ot

    2热度

    1回答

    类别 我想有公顷优雅功能投所有对象列在大熊猫数据 帧类别 df[x] = df[x].astype("category")执行类型投 df.select_dtypes(include=['object'])将子选择所有类别的列。但是这会导致其他列丢失/需要手动合并。有没有一种解决方案“就地运作”或不需要手动投射? 编辑 我要寻找类似http://pandas.pydata.org/pandas-d

    4热度

    1回答

    据我所知,具有混合效果模型作为随机效果连续或数字变量没有多大意义(例如,请参阅here)。 但我不知道是如果lme4::lmer或R中nlme::lme有意阻止你这样做...... 具体来说,就是我要问的是:如果我提供lmer(或lme)任何非因子(非分类)变量作为随机效应,函数是否会自动将其作为一个因子来处理? 插入factor()直接进入11聚物(如使用时lm通常的方法)产生以下错误:虽然上述

    2热度

    1回答

    我拼命尝试在下面的数据集中更改我的字符串变量day,car2。 <class 'pandas.core.frame.DataFrame'> Int64Index: 23653 entries, 0 to 23652 Data columns (total 7 columns): day 23653 non-null object clustDep 23653 non-null i