我有一个大小矩阵(61964,25)。下面是一个示例:如何计算一个数字与平均值有多少个标准偏差?
array([[ 1., 0., 0., 4., 0., 1., 0., 0., 0., 0., 3.,
0., 2., 1., 0., 0., 3., 0., 3., 0., 14., 0.,
2., 0., 4.],
[ 0., 0., 0., 1., 2., 0., 0., 0., 0., 0., 1.,
0., 2., 0., 0., 0., 0., 0., 0., 0., 5., 0.,
0., 0., 1.]])
Scikit学习提供了提供了一个有用的功能,我们的数据是正态分布:
from sklearn import preprocessing
X_2 = preprocessing.scale(X[:, :3])
我的问题,然而,就是我有一个行的基础上工作 - 它不仅包含25个观察值 - 所以正态分布不适用于此。解决方案是使用t分布,但我怎么能在Python中做到这一点?
通常情况下,值从0到20,例如20。当我看到异常高的数字时,我会过滤掉整行。下面的柱状图显示我的实际分布是什么样子:
的Python 3.4有一个新的模块[统计] [1],这将达到目的为你: [1 ]:https://docs.python.org/3/library/statistics.html – 2015-02-09 12:01:05