2
我在csv文件中有一个巨大的GPS数据集。
这是这样的。基于列条件的熊猫多重索引
12,1999-09-08 12:12:12, 116.3426, 32.5678
12,1999-09-08 12:12:17, 116.34234, 32.5678
.
.
.
每列是在
id, timestamp, longitude, latitude
形式现在,我使用熊猫将文件导入到一个数据帧,我至今写了这个代码。
import pandas as pd
import numpy as np
#this imports the columns and making the timestamp values as row indexes
df = pd.read_csv('/home/abc/Downloads/..../366.txt',delimiter=',',
index_col=1,names=['id','longitude','latitude'])
#removes repeated entries due to gps errors.
df = df.groupby(df.index).first()
有时候,将会有应删除
同日2或3的多个条目我得到这样的
id longitude latitude
1999-09-08 12:12:12 12 116.3426 32.5678
1999-09-08 12:12:17 12 116.34234 32.5678
# and so on with redundant entries removed
现在我想它有相同的纬度和经度行被连续索引.. 即,我的可视化是
id longitude latitude
0 1999-09-08 12:12:12 12 116.3426 32.5678
1 1999-09-08 12:12:17 12 116.34234 32.5678
2 1999-09-08 12:12:22 12 116.342341 32.5678
1999-09-08 12:12:27 12 116.342341 32.5678
1999-09-08 12:12:32 12 116.342341 32.5678
....
1999-09-08 12:19:37 12 116.342341 32.5678
3 1999-09-08 12:19:42 12 116.34234 32.56123
and so on..
即具有相同纬度和经度值的行将被串行索引。我怎么能做到这一点?我是熊猫的初学者,所以我对它不太了解。请帮忙!