sampling

    1热度

    1回答

    最近遇到了关于如何找到给定数字流的第x百分位数的问题。如果数据流相对较小(可以存储到内存中,排序并且可以找到第x个值),我对此有基本的了解,但是我想知道如果数字流相当公平,百分比是如何近似的数量众多,数量未知。

    2热度

    1回答

    假设我们有一个包含总体的原始数据集,并且我们有一个合并数据集,该数据集包含与另一个数据集合并后的总体(因此较少的观察值)。 library(tidyverse) set.seed(0) population_data <- data.frame(ID = c(1:100), industry = sample(1:10, 100, replace = T),

    1热度

    1回答

    我有两个不同大小的向量。说 x <- rnorm(50, 2, 0.8) y <- rnorm(35, 4, 0.5) 我想从y创建一个包含大小75观察样本从x大小100和大小25的样本的新载体z。 我想用sample()函数的基础包。

    1热度

    2回答

    一个给定概率分布假设的概率分布如下: x坐标表示小时,y坐标装置,用于每个小时的概率。 问题是如何生成一组1000个随机数据,遵循概率分布?

    0热度

    1回答

    我听说与word2vec一起使用的术语“负采样”和“子采样”很多。 在我试图搞砸word2vec之前,我试图回到引用单词嵌入的论文,并从头开始。本文线索已经落在这里我: https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/Uploaded

    -1热度

    2回答

    如何计算位数在R和创建直方图与正态分布亩= 16和sigma = 4

    -1热度

    1回答

    我对R相当新鲜。现在,当样本大小基于组更改时,我停止了分层抽样。 的数据看起来像这样: 和样品大小而变化根据不同的基团或阶层: 我用分层抽样,但不能图取出样本量。 Result <- stratified(Population, c("Loc", "Format"), Population$SampleSize), replace = FALSE, keep.row

    2热度

    1回答

    ,我有以下数据: MTU (CET) Day-ahead Price [EUR/MWh] 0 09.10.2017 00:00 - 09.10.2017 01:00 43.13 1 09.10.2017 01:00 - 09.10.2017 02:00 34.80 2 09.10.2017 02:00 - 09.10.2017 03:00 33.3

    4热度

    1回答

    我有一个2d numpy数组Z,我想随机选择一个索引Z,其中索引被选择的机会与该索引处的Z值成正比。 现在,我做了以下内容: yar = list(np.ndenumerate(Z)) x,y = yar[np.random.choice(len(yar), p=Z.ravel()/Z.sum())][0] 哪个做这项工作,但感觉丑陋的(并且是极其缓慢之外)。有没有更好的办法?

    0热度

    1回答

    使用不同的概率行具有这样的数据帧: ID var 1 NA 2 NA 3 NA 4 NA ... 我需要随机地分配20个%的行var值是A,和30%的行为B,和50%的行是C. 有没有一些有效的方法来解决这个问题?