statistical-sampling

0热度

2回答

使用PROC SQL拉动从仓库（甲骨文引擎）数据我需要提取数据的堆积如山的金额，说从不同的表600-700变量在数据仓库......现在在其原始数据集表单将很容易地触及150个演示--79 MM行，并且为了我的分析目的，我只需要一百万行......如何通过对行进行简单的随机采样，直接从仓库使用proc sql获取数据。下面的代码不会工作作为ranuni不受Oracle proc sql out

0热度

2回答

如何从Weka中的数据集中删除百分比但保持课程平衡？

我有一个数据集，包含来自A类的50％实例和B类的50％实例。我想将我的数据集分成一个训练集和一个测试集。我知道RemovePercentage过滤器存在，但它不关心类平衡。我如何从我的数据集中删除35％，但仍然保持训练集中的50/50类分布？

0热度

1回答

适合一条线以小的倍数

我想要拟合一条经过共享图上的取样分布均值的线。此代码创建一个类似的数据集到我正在使用的那个。它创建一个抽样分布并在同一图表上绘制分布图。然后，我画出一条经历分布均值的线。不过，我想要一个适合所有分配手段的线。我正在考虑类似this graphic found here。 means<-c(NULL) sample<-rnorm(1000,-0.2,0.1) A<-hist(sample,pl

1热度

1回答

sklearn音乐流派分类：如何准确评估不同的模型

我正在从5个不同类型（摇滚，电子，说唱，乡村，爵士）中分类30个音频样本的项目。我的数据集由600首歌曲组成，每个类型恰好120。这些功能是每首歌曲为13 mfccs的一维数组，标签是流派。从本质上讲，我对30秒样本的每个帧取平均每组13帧。这导致每首歌13 mfccs。然后我得到整个数据集，并使用sklearn的缩放函数。我的目标是比较svm，knearest和朴素贝叶斯分类器（使用skle

2热度

2回答

如何将概率与尺寸成比例（PPS）使用R的不等概率样本？

我有很少的编程经验，但我正在做一个统计项目，并希望生成一个不等概率样本，其中一个单位的包含概率是基于它的大小（PPS）。基本上，我有两个数据集： ds1列出了美国各州和我想的参数估计 ds2都有每个国家的人口规模。我的问题：我想用R使用基于每个状态（第二数据集）的人口包含概率从第一个数据集选择的随机样本。还有什么方法可以用R来计算这些广义不等概率估计公式吗？也只是在公式记：pi_i是包含

0热度

1回答

从非均匀数据创建均匀分布的示例

给定具有非均匀分布（高度尖峰）的数据集，我想重新采样以创建具有大致均匀分布的新数据集。我的方法：将数据分成分档。目标箱水平=所有箱中每个箱的最小样本数。随机删除样本，直到每个bin计数=目标bin级别。有没有更好的技术？

0热度

1回答

在矩阵上取样的最大值不包括主对角线上的值

我有一个矩阵X，它的主对角线上有最大值。首先，想要对第i行进行取样，并且沿着第i行挑选除了主对角线值（即，max！= X [i，i]）之外的最大值。下面的代码通常会产生的结果，但往往有一个错误： Error in if (MAX < l[k]) { : missing value where TRUE/FALSE needed # initial values n = 10 pop = r

0热度

1回答

在已知地层的SAS中创建分层样本

我有一些具有某些特征的目标人群，并且我被要求根据这些特征选择适当的控制。我正在尝试使用SAS base做分层样本，但我需要能够从我的目标中定义我的4个starta％s，并将这些应用于我的样本。有什么办法可以做到吗？谢谢！

2热度

1回答

纵向数据无需替换的随机抽样

我的数据是纵向数据。 VISIT ID VAR1 1 001 ... 1 002 ... 1 003 ... 1 004 ... ... 2 001 ... 2 002 ... 2 003 ... 2 004 ... 我们的最终目标是挑选每次访问10％进行测试。我尝试使用prov SURVEYSELECT来做SRS而无需替换，并使用“VISIT”作为分层。但最