sampling

1热度

1回答

最近遇到了关于如何找到给定数字流的第x百分位数的问题。如果数据流相对较小（可以存储到内存中，排序并且可以找到第x个值），我对此有基本的了解，但是我想知道如果数字流相当公平，百分比是如何近似的数量众多，数量未知。

2热度

1回答

假设我们有一个包含总体的原始数据集，并且我们有一个合并数据集，该数据集包含与另一个数据集合并后的总体（因此较少的观察值）。 library(tidyverse) set.seed(0) population_data <- data.frame(ID = c(1:100), industry = sample(1:10, 100, replace = T),

1热度

1回答

如何从两个不同的向量中取样？

我有两个不同大小的向量。说 x <- rnorm(50, 2, 0.8) y <- rnorm(35, 4, 0.5) 我想从y创建一个包含大小75观察样本从x大小100和大小25的样本的新载体z。我想用sample()函数的基础包。

1热度

2回答

采样从，使用R

一个给定概率分布假设的概率分布如下： x坐标表示小时，y坐标装置，用于每个小时的概率。问题是如何生成一组1000个随机数据，遵循概率分布？

0热度

1回答

负抽样和二次采样

我听说与word2vec一起使用的术语“负采样”和“子采样”很多。在我试图搞砸word2vec之前，我试图回到引用单词嵌入的论文，并从头开始。本文线索已经落在这里我： https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/Uploaded

-1热度

2回答

生成样本分布和中位数

如何计算位数在R和创建直方图与正态分布亩= 16和sigma = 4

-1热度

1回答

分层抽样大小因R中的组而异R

我对R相当新鲜。现在，当样本大小基于组更改时，我停止了分层抽样。的数据看起来像这样：和样品大小而变化根据不同的基团或阶层：我用分层抽样，但不能图取出样本量。 Result <- stratified(Population, c("Loc", "Format"), Population$SampleSize), replace = FALSE, keep.row

2热度

1回答

升频每小时数据到5个数据在熊猫

，我有以下数据： MTU (CET) Day-ahead Price [EUR/MWh] 0 09.10.2017 00:00 - 09.10.2017 01:00 43.13 1 09.10.2017 01:00 - 09.10.2017 02:00 34.80 2 09.10.2017 02:00 - 09.10.2017 03:00 33.3

4热度

1回答

二维numpy数组的加权随机采样

我有一个2d numpy数组Z，我想随机选择一个索引Z，其中索引被选择的机会与该索引处的Z值成正比。现在，我做了以下内容： yar = list(np.ndenumerate(Z)) x,y = yar[np.random.choice(len(yar), p=Z.ravel()/Z.sum())][0] 哪个做这项工作，但感觉丑陋的（并且是极其缓慢之外）。有没有更好的办法？

0热度

1回答

随机分配不同的值，以作为R

使用不同的概率行具有这样的数据帧： ID var 1 NA 2 NA 3 NA 4 NA ... 我需要随机地分配20个％的行var值是A，和30％的行为B，和50％的行是C. 有没有一些有效的方法来解决这个问题？