categorical-data

2热度

2回答

我有一个包含NA值的长因子类向量。 # simple example x <- factor(c(NA,'A','B','C',NA), levels=c('A','B','C')) 对于建模的目的，我希望用新的因子的水平（例如，“未知”）来替换这些NA值，并设置这个电平作为基准电平。因为更替水平是不是现有的水平，简单的更换不起作用： # this won't work, since th

1热度

1回答

pd.get_dummies（）在很大程度上很慢

我不确定这是否已经是最快的方法，或者如果我这样做效率低下。我想热编码一个特定的具有27k +级别的分类列。列有2点不同的数据集不同的值，所以我第一次使用前get_dummies（） def hot_encode_column_in_both_datasets(column_name,df,df2,sparse=True): col1b = set(df2[column_name].un

-2热度

1回答

在R中平滑一系列分类数据

我的数据集中的一列是“Movement_Stats”，它包含“forward”，“backward”和“Stop”。每一行代表一个图像帧。所以这个专栏看起来像：“前进，前进，前进，后退，前进，前进......”。我希望通过规则来平滑此列的分类值：对于每一行，检查其前5行未来5行（它的邻居）被重新分配该行的值其邻居的多数票我没有找到任何包，我可以在R.使用

0热度

1回答

Python中的分类数据的分级聚类

我有一个包含字符串值的分类属性。其中三个包含dayname（星期一）月份名称和时间间隔（早上下午晚上），另外两个像我之前提到的那样有地区和街道名称。其次是性别，角色，评论（这是一个预定义的固定字段，其值为好，坏的强烈同意等）姓和名。我的意图是对它们进行聚类和可视化。我使用这个WEKA bur应用k均值聚类它没有工作。现在我想对它应用层次聚类。我发现这个代码： import scipy impo

1热度

1回答

重新编码熊猫的分类变量

我有一个我想重新编码的分类数据的数据框。以下是我到目前为止的代码的玩具示例 import pandas as pd ser = pd.DataFrame({'a':[1,3,3,1], 'b':[2,2,4,5]}) print(ser) a_dict = {1:11, 3:33} b_dict = {2:22, 4:44, 5:55} ser.a = ser.a.map(a_dict)

0热度

1回答

如何在R中的2个不同列中选择相同的分类观察

我有一个来自2个来源的巨大合并数据框。我有兴趣找到2个分类变量的错误编码，但因为这2个来自不同的来源，所以它们的编码方式不一样。例如： df col1 levels: DM,GDM,NO,UNTIME,NOTKNOWN col2 levels: type 1 dm, type 2 dm, gdm, hx of gdm,resolve,.. 显然它们是不同的。所以，我试图重新编码以类似

5热度

1回答

如何在R中绘制具有多个分类变量的平行坐标

我在使用GGally软件包中的ggparcoord绘制平行坐标绘图时遇到困难。由于存在两个分类变量，我想在可视化中显示的内容如下图所示。我发现在ggparcoord，groupColumn只允许单个变量来组（颜色），当然我可以使用showPoints标记轴上的值，但我也需要改变形状这些标记根据分类变量。有没有其他的软件包可以帮助我实现我的想法？任何回应将不胜感激！谢谢！

0热度

1回答

Plotly.js：无法显示完整的分类x轴

我必须用时间轴绘制x轴的折线图。 x轴就像[“00:00”，“00:05”，“00:10 :, ...”，23:55“]，这使得它不是数字，而是绝对的但是，我可能没有在y轴上的完整数据列表，例如只有从“00”00“到”09:00“的数据。数据必须从“00:00”开始。我制作的图表只能显示具有y值的范围。（例如“00”00到“09:00”），但是我想要有一个完整的x轴的图表，尽管图表的某些部分

0热度

2回答

Clara_具有R中许多级别的分类数据的大数据集的数据集

我有一个相当大的数据集，其中包含纯粹的分类数据。数据的行数（样本）超过30,000,000。属性已减少到4（列），所有属性（属性）都是明确的，其中一个属性几乎有50,000个级别！我想在进一步处理之前将我的数据集群。但是，由于数据量很大，因此不可能使用大多数聚类算法。我选择使用ClusterR软件包中的Clara_Medoids来尝试集群。我面临的问题是运行代码给我一个我无法解决的错误。

3热度

1回答

如何检查python中连续和分类变量之间的相关性？

我有一个数据集，包括分类变量（二进制）和连续变量。我正尝试应用线性回归模型来预测连续变量。有人可以让我知道如何检查分类变量和连续目标变量之间的相关性。目前代码： import pandas as pd df_hosp = pd.read_csv('C:\Users\LAPPY-2\Desktop\LengthOfStay.csv') data = df_hosp[['lengthofsta