2016-02-10 47 views
4

我已经学会了引导和分层。但是什么是分层引导?它是如何工作的?什么是分层引导?

比方说,我们有一个n实例的数据集,类的数量是m。如何划分数据集,以及列车和测试的百分比是多少?

回答

2

你分裂你是每个类的数据集。之后,您可以从每个子群体中独立抽样。您从一个亚群抽样的实例的数量应该与其比例相关。

data 
d(i) <- { x in data | class(x) =i } 
for each class 
    for j = 0..samplesize * (size(d(i))/ size(data) 
     sample(i) <- draw element from d(i) 
sample <- U sample(i) 

如果样品与类{'a','a','a','a','a','a','b','b'}数据集四大要素,这个过程可以确保b类的至少一个元素包含分层抽样

+0

是否'samplesize'等于班数据集,或数据集中的实例? – Kevin217

+0

我看到.... ty的答案 – Kevin217