statistical-sampling

    0热度

    2回答

    使用PROC SQL拉动从仓库(甲骨文引擎)数据 我需要提取数据的堆积如山的金额,说从不同的表600-700变量在数据仓库......现在在其原始数据集表单将很容易地触及150个演示--79 MM行,并且为了我的分析目的,我只需要一百万行......如何通过对行进行简单的随机采样,直接从仓库使用proc sql获取数据。 下面的代码不会工作作为ranuni不受Oracle proc sql out

    0热度

    2回答

    我有一个数据集,包含来自A类的50%实例和B类的50%实例。我想将我的数据集分成一个训练集和一个测试集。我知道RemovePercentage过滤器存在,但它不关心类平衡。我如何从我的数据集中删除35%,但仍然保持训练集中的50/50类分布?

    0热度

    1回答

    我想要拟合一条经过共享图上的取样分布均值的线。此代码创建一个类似的数据集到我正在使用的那个。它创建一个抽样分布并在同一图表上绘制分布图。然后,我画出一条经历分布均值的线。不过,我想要一个适合所有分配手段的线。我正在考虑类似this graphic found here。 means<-c(NULL) sample<-rnorm(1000,-0.2,0.1) A<-hist(sample,pl

    1热度

    1回答

    我正在从5个不同类型(摇滚,电子,说唱,乡村,爵士)中分类30个音频样本的项目。我的数据集由600首歌曲组成,每个类型恰好120。这些功能是每首歌曲为13 mfccs的一维数组,标签是流派。 从本质上讲,我对30秒样本的每个帧取平均每组13帧。这导致每首歌13 mfccs。然后我得到整个数据集,并使用sklearn的缩放函数。 我的目标是比较svm,knearest和朴素贝叶斯分类器(使用skle

    2热度

    2回答

    我有很少的编程经验,但我正在做一个统计项目,并希望生成一个不等概率样本,其中一个单位的包含概率是基于它的大小(PPS)。 基本上,我有两个数据集: ds1列出了美国各州和我想的参数估计 ds2都有每个国家的人口规模。 我的问题: 我想用R使用基于每个状态(第二数据集)的人口包含概率从第一个数据集选择的随机样本。 还有什么方法可以用R来计算这些广义不等概率估计公式吗? 也只是在公式记:pi_i是包含

    0热度

    1回答

    给定具有非均匀分布(高度尖峰)的数据集,我想重新采样以创建具有大致均匀分布的新数据集。我的方法: 将数据分成分档。 目标箱水平=所有箱中每个箱的最小样本数。 随机删除样本,直到每个bin计数=目标bin级别。 有没有更好的技术?

    0热度

    1回答

    我有一个矩阵X,它的主对角线上有最大值。 首先,想要对第i行进行取样,并且沿着第i行挑选除了主对角线值(即,max!= X [i,i])之外的最大值。 下面的代码通常会产生的结果,但往往有一个错误: Error in if (MAX < l[k]) { : missing value where TRUE/FALSE needed # initial values n = 10 pop = r

    0热度

    1回答

    我有一些具有某些特征的目标人群,并且我被要求根据这些特征选择适当的控制。我正在尝试使用SAS base做分层样本,但我需要能够从我的目标中定义我的4个starta%s,并将这些应用于我的样本。有什么办法可以做到吗?谢谢!

    2热度

    1回答

    我的数据是纵向数据。 VISIT ID VAR1 1 001 ... 1 002 ... 1 003 ... 1 004 ... ... 2 001 ... 2 002 ... 2 003 ... 2 004 ... 我们的最终目标是挑选每次访问10%进行测试。我尝试使用prov SURVEYSELECT来做SRS而无需替换,并使用“VISIT”作为分层。但最