我有一个100,000个行的大数据框,并且我想添加一个列,其中的值是基于数据中常见名称的另一个数据框子集的样本帧。可能是更容易的例子来解释......从其他数据框的子集中获取随机样本
largeDF <- data.frame(colA = c('a', 'b', 'b', 'a', 'a', 'b'),
colB = c('x', 'y', 'y', 'x', 'y', 'y'),
colC = 1:6)
sampleDF <- data.frame(colA = c('a','a','a','a','b','b','b','b','b','b'),
colB = c('x','x','y','y','x','y','y','y','y','y'),
sample = 1:10)
我再要一个新的列添加到sample
largeDF
,这是sampleDF
的sample
列的colA
和colB
适当的子集的随机样本。
例如,对于第一行的值是a
和x
,因此该值将是1
或2
随机抽样,对下一行(b
和y
)这将是6, 7, 8, 9 or 10
的随机样本。
所以,我们最终可能会以类似:
rowA rowB rowC sample
1 a x 1 2
2 b y 2 9
3 b y 3 7
4 a x 4 2
5 a y 5 4
6 b y 6 8
任何帮助,将不胜感激!
什么是colA'和'colB'值和采样域({1,2}和{'之间的确切关系6,7. 8. 9. 10}在你的例子中)? – Pop