statistics

    0热度

    1回答

    我是熊猫的初学者。 用例是,我有一个包含实际数据的两个dataframes一个(比如DF1): teamID yearID W 1B PAR 2B PAR 3B PAR HR PAR BB PAR 1366 LAA 1961 70 0.147748 0.035708 0.003604 0.030958 0.111548 1367 KC1 1961 61 0.164751 0.03598

    0热度

    1回答

    我对我的RNG执行DieHarder测试,并且我想绘制结果的p值。 (Just like this guy does)。 所以,我不需要单个测试的最终p值,但是每个测试的p值的整个范围(0,1]。 我能够提取p值死忠的第一次测试,用详细模式-v 1。 在输出的尽头,有100来分类的p值 一列。我认为这是我要绘制什么。 然而,我我不能使用-v 1与其他测试,他们只是产生了很多输出(千兆字节!),它崩

    1热度

    1回答

    我正在尝试使用python找到学生化和PRESS残差的多元回归模型。在这种情况下,我有以下数据: X1 X2 Y 14 25 301 19 32 327 12 22 246 11 15 187 与拟合模型为:Y = 80.93-5.84 X1 + X2 11.32和MSresidual:574.9 我写了下面的代码,以找到那些残留物。 import math def lin_mode

    -1热度

    1回答

    假设我可以用连续随机变量Y和可逆cdf FY生成样本。我想知道FY(Y)(内外资本Y)的分布情况如何? 我的主要猜测是一个统一的分布,但我不知道如何验证我的答案。

    2热度

    1回答

    我的数据是一组Ñ观察到对与它们的频率,即,每对(X 我,Y 我)有对应一些ķ沿我,次的数目(×我,Y 我)进行了观察。理想情况下,我想这两者进行计算Kendall的tau和Spearman的Rho为集这些对所有的副本,它由ķ + K + ... + K ň双。的问题是,ķ + K 2 + ... + K Ñ,观测的总数量,是巨大的,这样的数据结构将不适合在存储器中。 当然,我想有关分配的频率我个对

    0热度

    1回答

    我想知道是否有可能使用stats.linregress除了有固定截距,我目前做这,: from scipy import stats from numpy import arrange,array y = [0, 11, 19, 28, 41, 49, 62, 75, 81] xi = arange(0,9) scale, intercept, r_value, p_value, st

    0热度

    1回答

    我有一个数据框,里面包含了我用老鼠输入的数据。 我不完全理解我得到的输出。 SSQ =平方和。但是,哪个平方和?剩余的平方和?或总平方数 - 残差平方和?我假设后者,但我不确定。 df1有意义 - 它是每个变量-1内的组数。 df2我不明白。我有473个变量,以及20个老鼠的推测。但即使是473 x 20也不等于下面第一列的500万! 此外,eta2是指单向anova的结果,partial-eta

    1热度

    1回答

    我给了一个24位数字的排序数组d3.quantile并要求它计算第一个四分位数值。由于阵列可以平均分为4组6个值,我的假设是结果将是arr [5]和arr [6]的平均值,但这不是我得到的。 var arr = [89.7, 93.2, 94, 94.3, 94.5, 95.4, 95.9, 96.1, 96.4, 96.5, 96.9, 96.9, 97.3, 97.6, 97.6, 97.6,

    0热度

    1回答

    考虑一种分析方法,您需要在日期范围内找出回头客。重复客户的日期范围定义为在起始范围之前使用服务3 *(给定日期范围时间间隔)的客户,并且还使用特定日期范围内的服务。 For example repeat customer for this week is all customers who used service 3 weeks before starting of this week and

    -1热度

    3回答

    考虑由Seretosa,Versicolor和Virginica组成的虹膜数据集。对于4个变量有50个观察值:萼片长度,萼片宽度,花瓣长度和花瓣宽度。如何使用R计算每个组的样本协方差矩阵?