我有这样如何根据百分比划分数据集?
ID var value
9442000 a 2.01
9442000 v 2.2
9442000 h 5.3
9442000 f 0.2
9442000 s 0.55
9442000 t 0.6
952001 d 0.22
952001 g 0.44
952001 g 0.44
952001 h 0.77
652115 a 4.66
652115 d 1.55
652115 s 2.55
652115 s 2.55
我想这分成两个dataframes用于校准(75%)和验证(25%)的数据集。为整体做这件事很简单,但我想要做到这一点。所以基本上,我想确保75%的EACH ID进行校准。例如,对于ID ,我想将任何四个事件(随机)放入校准中,将2放入验证数据帧中。
预期输出:
*Calibration*
ID var value
9442000 a 2.01
9442000 v 2.2
9442000 h 5.3
9442000 f 0.2
952001 d 0.22
952001 g 0.44
952001 g 0.44
652115 a 4.66
652115 d 1.55
652115 s 2.55
而且
*validation*
ID var value
9442000 s 0.55
9442000 t 0.6
952001 h 0.77
652115 s 2.55
要随机样本,您可以用'样品(长度(X))',而不是'seq_along(X)'在函数中。 – 2015-02-25 00:56:24