dummy-variable

    0热度

    1回答

    我在Stata中设置了不平衡面板数据集。从1993年到2013年的观察。我有一个名为bankrupcty year的变量,表示每家公司破产的年份。问题在于,在每家公司破产之前,我的Stata文件缺失达2年之久。也就是说,一家公司在2003年破产,该公司最后一次观察是在2002年或2001年。然而,我想创建一个虚拟变量,因为公司破产时,但由于我错过了那一年,我无法执行命令: gen bankrupt

    2热度

    1回答

    我有一个基于不同年份的数据,重复了几次。我希望我的输出具有等于年数的列,每列列一年。现在,目的是分别为每一年创建虚拟。例如,每当2000年的主要数据中存在非NA观察值时,2000年的输出列必须具有值“1”,否则为“0”。而且,NA必须保持NA。请参考下面的输入数据的小样本: df: 2000 NA 2001 NA 2002 -1.3 2000 1.1 2001 0 2002 NA 2

    3热度

    2回答

    在Pandas中,如果我想创建一列有条件的假人(如果变量等于一个字符串,则为1,如果不是,则为0),那么我的转到熊猫是: data["ebt_dummy"] = np.where((data["paymenttypeid"]=='ebt'), 1, 0) 天真地在dask数据帧中尝试此操作会引发错误。继为方向的map_partitions文档中还抛出一个错误: ​​ 什么是一个很好的方式,还是

    0热度

    1回答

    组 内按组编码为一个变量的值的伪变量I具有CASE_ID(x和y和z),一组多个日期(包括重复日期)为每个CASE_ID中的数据集,和可变VAR。我想的基团,由此,如果VAR =在某些具体的日期,则DUMMYVAR = 1对应于CASE_ID所有观察“C”为CASE_ID X X上与该日期内创建由组虚拟变量DUMMYVAR。 我相信,一个经典2XDOW是这里的关键,但这是利用SAS,并且无法获得这

    1热度

    1回答

    我正在使用Stata。 我是从TUS(即时间使用调查)获得的描述性统计之后:为全职工作者工作的每日总时间(因为这些数据来自卢森堡,工作日至少8小时为全职工作者)。 因此,我研究了TUS的子样本,那里只有那些宣布被雇用的人。 在此数据集的子样本中,每人有两个观察值,一个在周末和一个在周(即它是一种短面板数据集)。 因为我感兴趣的只是那些谁全职工作的人,我想衡量在这两天的总工作时间两种类型的个体: 个

    0热度

    1回答

    我有一个由n个个体组成的调查;每个人在调查中都会出现一次以上(小组)。我有一个可变的钢笔,如果个人投资于补充性养老金形式,这是一个虚拟价值为1的虚拟钢笔。例如: df <- data.frame(year=c(2002,2002,2004,2004,2006,2008), id=c(1,2,1,2,3,3), y.b=c(1950,1943,1950,1943,1966,1966), sex=c(

    -3热度

    1回答

    我注意到,当使用虚拟编码来拟合我的线性模型时,R在形成模型矩阵时排除了某些参数。什么是R算法来做到这一点?

    0热度

    1回答

    我有一个xts时间序列对象,由2015年的分钟盘点交易数据组成。我想添加一个虚拟变量,将1表示为事件日或0作为事件日一个非凡的一天。 由于虚拟变量本质上不是时间序列,因此我可以将其添加到我的交易数据中吗? 我该如何构建虚拟列? 它如何被添加到现有的xts? 新的R,所以请尽可能在您的答案中具体。谢谢!

    0热度

    1回答

    我用model.matrix()方法R生成虚拟变量: dd <- data.frame(a = gl(2,2)) model.matrix(~ a - 1,dd) 而不是0和1个输出标签,我们需要在model.matrix()设置,使输出的标签是什么参数是-1和1?

    0热度

    1回答

    我几天前开始使用R,并且确实可以使用一些帮助:D 我目前有一个包含200个观察值和12个变量的数据框(它们表示点击,所以他们被命名为c1-c12)。 背景: 用户在字段上单击(最多12次)。这些字段下令6行和4列和所述用户的点击次数被记录为电话号码。: [,1] [,2] [,3] [,4] [1,] "11" "21" "31" "41" [2,] "12" "22" "32" "42"