categorical-data

    2热度

    2回答

    我有一个包含NA值的长因子类向量。 # simple example x <- factor(c(NA,'A','B','C',NA), levels=c('A','B','C')) 对于建模的目的,我希望用新的因子的水平(例如,“未知”)来替换这些NA值,并设置这个电平作为基准电平。 因为更替水平是不是现有的水平,简单的更换不起作用: # this won't work, since th

    1热度

    1回答

    我不确定这是否已经是最快的方法,或者如果我这样做效率低下。 我想热编码一个特定的具有27k +级别的分类列。列有2点不同的数据集不同的值,所以我第一次使用前get_dummies() def hot_encode_column_in_both_datasets(column_name,df,df2,sparse=True): col1b = set(df2[column_name].un

    -2热度

    1回答

    我的数据集中的一列是“Movement_Stats”,它包含“forward”,“backward”和“Stop”。每一行代表一个图像帧。所以这个专栏看起来像:“前进,前进,前进,后退,前进,前进......”。我希望通过规则来平滑此列的分类值: 对于每一行,检查其前5行未来5行(它的邻居) 被重新分配该行的值其邻居的多数票 我没有找到任何包,我可以在R.使用

    0热度

    1回答

    我有一个包含字符串值的分类属性。其中三个包含dayname(星期一)月份名称和时间间隔(早上下午晚上),另外两个像我之前提到的那样有地区和街道名称。其次是性别,角色,评论(这是一个预定义的固定字段,其值为好,坏的强烈同意等)姓和名。我的意图是对它们进行聚类和可视化。我使用这个WEKA bur应用k均值聚类它没有工作。 现在我想对它应用层次聚类。我发现这个代码: import scipy impo

    1热度

    1回答

    我有一个我想重新编码的分类数据的数据框。以下是我到目前为止的代码的玩具示例 import pandas as pd ser = pd.DataFrame({'a':[1,3,3,1], 'b':[2,2,4,5]}) print(ser) a_dict = {1:11, 3:33} b_dict = {2:22, 4:44, 5:55} ser.a = ser.a.map(a_dict)

    0热度

    1回答

    我有一个来自2个来源的巨大合并数据框。我有兴趣找到2个分类变量的错误编码,但因为这2个来自不同的来源,所以它们的编码方式不一样。 例如: df col1 levels: DM,GDM,NO,UNTIME,NOTKNOWN col2 levels: type 1 dm, type 2 dm, gdm, hx of gdm,resolve,.. 显然它们是不同的。所以,我试图重新编码以类似

    5热度

    1回答

    我在使用GGally软件包中的ggparcoord绘制平行坐标绘图时遇到困难。由于存在两个分类变量,我想在可视化中显示的内容如下图所示。我发现在ggparcoord,groupColumn只允许单个变量来组(颜色),当然我可以使用showPoints标记轴上的值,但我也需要改变形状这些标记根据分类变量。有没有其他的软件包可以帮助我实现我的想法? 任何回应将不胜感激!谢谢!

    0热度

    1回答

    我必须用时间轴绘制x轴的折线图。 x轴就像[“00:00”,“00:05”,“00:10 :, ...”,23:55“],这使得它不是数字,而是绝对的 但是,我可能没有在y轴上的完整数据列表,例如只有从“00”00“到”09:00“的数据。数据必须从“00:00”开始。 我制作的图表只能显示具有y值的范围。 (例如“00”00到“09:00”),但是我想要有一个完整的x轴的图表,尽管图表的某些部分

    0热度

    2回答

    我有一个相当大的数据集,其中包含纯粹的分类数据。 数据的行数(样本)超过30,000,000。 属性已减少到4(列),所有属性(属性)都是明确的,其中一个属性几乎有50,000个级别! 我想在进一步处理之前将我的数据集群。但是,由于数据量很大,因此不可能使用大多数聚类算法。 我选择使用ClusterR软件包中的Clara_Medoids来尝试集群。我面临的问题是运行代码给我一个我无法解决的错误。

    3热度

    1回答

    我有一个数据集,包括分类变量(二进制)和连续变量。我正尝试应用线性回归模型来预测连续变量。有人可以让我知道如何检查分类变量和连续目标变量之间的相关性。 目前代码: import pandas as pd df_hosp = pd.read_csv('C:\Users\LAPPY-2\Desktop\LengthOfStay.csv') data = df_hosp[['lengthofsta