categorical-data

    0热度

    1回答

    可能性太多我有40个输入分类字段如 “的cpumodel”(1523种可能性) 他们每个人可能有数以千计的可能性。 如果我使用get_dummies,我的熊猫表将包含许多虚拟列。 我打算将此字段用作机器学习算法的输入功能。 我该如何处理?

    4热度

    1回答

    我在数据框中有一列有分类数据,但有些数据缺失,即NaN。我想对这些数据进行线性插值来填补缺失值,但我不知道如何去做。我不能删除NaN以将数据转换为分类类型,因为我需要填充它们。一个简单的例子来证明正在尝试做什么。 col1 col2 5 cloudy 3 windy 6 NaN 7 rainy 10 NaN 说我要col2转换为分类数据,但保留了NaN,并且利用线性插值我怎么

    0热度

    1回答

    亲爱的成员#1, 我有一个数据集,由以下组成:含有五种不同的语言一列lang。包含(0,1)的两个其他列CAN和INT。您可以看到数据here 我想绘制每种语言的两个小节,一个用于CAN== 0,另一个用于CAN==1。 y轴应该是行数为INT(或INT==1)。我想这些酒吧有他们的错误栏。有些帖子建议使用melt()以将格式转换为长格式。但是,由于我的数据是连续的,所以这看起来没有用。

    2热度

    1回答

    例如,我在以下csv格式数据: 1,2,1:3:4,2 0,1,3:5,1 .. 。 由逗号分隔的每一列代表一个特征。通常情况下,一个特征是独热(例如COL0,COL1,COL3),但在这种情况下,用于COL2特征具有多个输入(由冒号分隔)。 我敢肯定tensorflow可以处理一个热功能,以稀疏张量,但我不知道它是否能与多个输入,比如COL2处理功能? 如果可以,应该如何表示张量流的稀疏张量?

    5热度

    5回答

    我使用下面的一段代码将字符串转换为数据集中的分类值。 data['weekday'] = pd.Categorical.from_array(data.weekday).labels 对于例如, index weekday 0 Sunday 1 Sunday 2 Wednesday 3 Monday 4 Monday 5 Thursday 6 Tuesday 编

    1热度

    1回答

    我是R的新手,真的想把所有东西都包裹起来(甚至在线课程 - 迄今为止一直没有帮助)。 我开始的是一个大型数据框,其中包含97个有关符合法规的变量。 我已经根据不同的地理位置创建了多个数据框(可能有更简单的方法)。 在每个这些数据框中,我有7个变量,我希望找到“是”和“否”响应的意思。 我第一次尝试: summary(urban$vio_bag) Length Class Mode

    1热度

    1回答

    我有这样一个数据帧添加新类别列,与10M行: probe time 2016-01-01 00:05:00 3 2016-01-01 00:05:00 1 2016-01-01 00:05:00 5 2016-01-01 00:05:00 5 2016-01-01 00:05:00 4 2016-01-01 00:05:00 2 2016-01-01 00:05

    2热度

    1回答

    我想创建一个图形,就像名为Fathom的软件一样。 我有希望创造这样一个波动的情节绝对频率数据的双向表,但关键的区别是,你可以看到各个数据点。 我试过ggfluctuation(...),levelplots(...)和各种包装(如ggplot2),但没有成功。我在任何论坛上都找不到任何帮助。 如果有人能够帮助我指导或创建一些能达到我目标的代码,我将非常感激。

    -2热度

    1回答

    我需要绘制以下数据的图表,其中x轴为year_week,y轴为test_duration,每个操作符为不同系列。一周内同一运营商可能会有多个数据点。我需要在每个系列中显示标准偏差带。 data = pd.DataFrame({'year_week':[1601,1602,1603,1604,1604,1604], 'operator':['jones','jack','john','jones'

    2热度

    1回答

    假设我有位置功能。在火车数据集中,其独特的值是'纽约','芝加哥'。但在测试中它有'纽约','芝加哥','伦敦'。 因此,当创建一个热门编码如何忽略'伦敦'? 换句话说,如何不编码仅出现在测试集中的类别?