2013-06-05 49 views
0

我正在从文本文件中读取列表并获取此列表的标准偏差,我想知道如何使值远离一个标准偏差只是将其用作与平均值相差一个标准差的平均值。以下是我正在使用的代码的一部分:如果列表的值超过某个值,则更改列表的值

a=np.genfromtxt('meanvals2.txt').T[1] 
b=np.std(a) 
c=np.mean(a) 
ok=(a>(c-b))*(a<(c+b)) # within 1st deviation 
h=a[ok] 
print h 

此代码仅删除一个标准偏差以外的任何值。我将如何改变它,以便这些删除的值在距离平均值1个标准偏差处被限制,但保留在数据集中?

例如,如果我的列表是[1,2,3,4,5,20],则标准偏差是7.08,平均值是5.88。所以一个偏离平均值的标准偏差是12.96或-1.2,所以目前我的代码会排除任何数字,所以列表将是[1,2,3,4,5],但我希望列表实际读取[ 1,2,3,4,5,12.96。我会怎么做这

+0

你的代码更完整的版本可能会有所帮助。什么是h? –

+0

对不起,我错过了一行,现在编辑了它,我的代码长达几百行,所以我并不想真正包括它,但我希望其中包含了足够的内容 – astrochris

+0

因此h是新的输出列表 – astrochris

回答

2

我想我会做这两个步骤:

a = np.genfromtxt('meanvals2.txt').T[1] 
b = np.std(a) 
c = np.mean(a) 

#step 1, values lower than 1 std from mean 
ok = a > (c - b) 
a[~ok] = c - b 

#step 2, values higher than 1 std from mean 
ok = a < (c + b) 
a[~ok] = c + b 

print a 
当然

,如果你真的想要一个单独的数组h,你可以做h = a.copy(),然后用h工作的a代替。

使用您的数据为例:

>>> a = np.array([1,2,3,4,5,20],dtype=np.float32) 
>>> b = np.std(a) 
>>> c = np.mean(a) 
>>> print b 
6.46572151487 
>>> print c 
5.83333333333 
>>> ok = a > (c - b) 
>>> a[~ok] = c - b 
>>> ok = a < (c + b) 
>>> a[~ok] = c + b 
>>> print a 
[ 1.   2.   3.   4.   5.   12.2990551] 
+0

@ user2201043 - I我敢肯定,我的代码应该做你要求的... – mgilson

+0

是的,它是我的不好,谢谢 – astrochris

相关问题