我正在编写一个代码来对数据进行分类,并获得平均值和标准偏差。这里是我的数据的例子。对数据进行分类,计算每个类别的平均值和标准差
3917 1 -0.662261 25.148 22.9354 68.8076
3918 1 12.7649 18.7451 7.68473 69.0063
3919 1 -9.56836 -23.3265 -61.953 68.8357
3920 1 11.6292 31.6525 -29.3697 69.1372
3921 2 26.4837 -66.7897 12.0257 69.2282
3922 1 -9.81652 14.3788 9.38343 69.1217
3923 2 39.931 -88.1879 109.498 69.1604
3924 1 4.5502 3.53887 -6.59604 69.486
3925 2 13.6801 -24.6628 -5.7568 69.9398
3926 1 -10.5635 7.05517 -8.82785 70.2263
正如你所看到的,有6列。我正在考虑三步计算。
根据第6列对这些数字进行分类。第6列由0〜n的浮点数组成。我希望生成n个部分(或子矩阵,或其他),如0〜1,1〜2,2〜3 .... n-1〜n。最后一个数字应该是最后一个数据的数字,因为我希望能够创建部分。例如,如果最后一个数字是121.2513,最后一部分应该是120〜121以包含该数据。
将列1〜5的所有其他数字重新分配给基于第6列的相应子部分。如果在特定部分中没有编号,则将其打印为0.将会有n个小节。每个小节中的元素数量将是随机的。
得到每个子段的第3,第4和第5列的平均值和标准偏差,并将输入文件写入输入文件中,第'小节中的元素数,小节的开始数以及第3小节的平均值和标准差,第4列和第5列'
我正在尝试使用多个for循环,但它变得太复杂,并且会出错。有没有其他简单的方法来分类数据,与每个子部分一起玩,并用Python打印出来?另外,我的for循环根本不起作用。任何简单的示例建议使用这些数据?
请编辑您的文章以包括您的* for循环根本不工作* ...部分 –
您是否在使用[numpy](http://www.numpy.org)?如果不是,你有没有理由不能?它使得这种代码变得简单很多(与scipy和/或pandas一起),并避免了所有显式循环,使得你无法正确使用。 – abarnert
你可以发布你迄今为止写的代码吗? – scohe001