categorical-data

0热度

1回答

可能性太多我有40个输入分类字段如 “的cpumodel”（1523种可能性）他们每个人可能有数以千计的可能性。如果我使用get_dummies，我的熊猫表将包含许多虚拟列。我打算将此字段用作机器学习算法的输入功能。我该如何处理？

4热度

1回答

我在数据框中有一列有分类数据，但有些数据缺失，即NaN。我想对这些数据进行线性插值来填补缺失值，但我不知道如何去做。我不能删除NaN以将数据转换为分类类型，因为我需要填充它们。一个简单的例子来证明正在尝试做什么。 col1 col2 5 cloudy 3 windy 6 NaN 7 rainy 10 NaN 说我要col2转换为分类数据，但保留了NaN，并且利用线性插值我怎么

0热度

1回答

ggplot，barplot与误差条：两个二进制列和一个分类

亲爱的成员＃1，我有一个数据集，由以下组成：含有五种不同的语言一列lang。包含（0,1）的两个其他列CAN和INT。您可以看到数据here 我想绘制每种语言的两个小节，一个用于CAN== 0，另一个用于CAN==1。 y轴应该是行数为INT（或INT==1）。我想这些酒吧有他们的错误栏。有些帖子建议使用melt()以将格式转换为长格式。但是，由于我的数据是连续的，所以这看起来没有用。

2热度

1回答

张量流可以处理一列中具有多个输入的分类特征吗？

例如，我在以下csv格式数据： 1，2，1：3：4，2 0，1，3：5,1 .. 。由逗号分隔的每一列代表一个特征。通常情况下，一个特征是独热（例如COL0，COL1，COL3），但在这种情况下，用于COL2特征具有多个输入（由冒号分隔）。我敢肯定tensorflow可以处理一个热功能，以稀疏张量，但我不知道它是否能与多个输入，比如COL2处理功能？如果可以，应该如何表示张量流的稀疏张量？

5热度

5回答

任何获得Python熊猫标签编码器映射的方法？

我使用下面的一段代码将字符串转换为数据集中的分类值。 data['weekday'] = pd.Categorical.from_array(data.weekday).labels 对于例如， index weekday 0 Sunday 1 Sunday 2 Wednesday 3 Monday 4 Monday 5 Thursday 6 Tuesday 编

1热度

1回答

计算R中是或否的答案比例

我是R的新手，真的想把所有东西都包裹起来（甚至在线课程 - 迄今为止一直没有帮助）。我开始的是一个大型数据框，其中包含97个有关符合法规的变量。我已经根据不同的地理位置创建了多个数据框（可能有更简单的方法）。在每个这些数据框中，我有7个变量，我希望找到“是”和“否”响应的意思。我第一次尝试： summary(urban$vio_bag) Length Class Mode

1热度

1回答

如何在大熊猫

我有这样一个数据帧添加新类别列，与10M行： probe time 2016-01-01 00:05:00 3 2016-01-01 00:05:00 1 2016-01-01 00:05:00 5 2016-01-01 00:05:00 5 2016-01-01 00:05:00 4 2016-01-01 00:05:00 2 2016-01-01 00:05

2热度

1回答

如何为分类数据创建“聚类点图”？

我想创建一个图形，就像名为Fathom的软件一样。我有希望创造这样一个波动的情节绝对频率数据的双向表，但关键的区别是，你可以看到各个数据点。我试过ggfluctuation(...),levelplots(...)和各种包装（如ggplot2），但没有成功。我在任何论坛上都找不到任何帮助。如果有人能够帮助我指导或创建一些能达到我目标的代码，我将非常感激。

-2热度

1回答

Python错误带的分类图

我需要绘制以下数据的图表，其中x轴为year_week，y轴为test_duration，每个操作符为不同系列。一周内同一运营商可能会有多个数据点。我需要在每个系列中显示标准偏差带。 data = pd.DataFrame({'year_week':[1601,1602,1603,1604,1604,1604], 'operator':['jones','jack','john','jones'

2热度

1回答

如何处理使用python的测试数据集中看不到的分类值？

假设我有位置功能。在火车数据集中，其独特的值是'纽约'，'芝加哥'。但在测试中它有'纽约'，'芝加哥'，'伦敦'。因此，当创建一个热门编码如何忽略'伦敦'？换句话说，如何不编码仅出现在测试集中的类别？