我不确定这是否是正确的地方要问,所以请原谅我,如果这个声音不相关。这是我的情况:检测损坏数据的算法?
我的数据集是continual
在时间上,有一些errones data
我需要处理。与邻居相比,他们的价值突然增加。
下面是数据集的一部分。如您所见,第四个值突然增加(28.3
)。 (值是在最后一栏)
19741212,0700,200,1,N, 4.6
19741212,0800,190,1,N, 4.6
19741212,0900,180,1,N, 5.7
19741212,1000,160,1,N, 28.3 # wrong data, need interpolate from neighbors
19741212,1100,170,1,N, 4.6
19741212,1200,200,1,N, 5.1
19741212,1300,230,1,N, 5.1
我需要identify
它们,然后做interpolate
从附近的数据来替换它们。我想知道是否有这个algorithm
?
如果我要它从头开始实现的方法,我咬咬牙:
- 计算增量从接近数据点
- 选择合适的门槛为检测损坏的数据
但我不知道这是否是足够好,也许我忽略了其他部分,这将导致误报的数量巨大。
另外,我使用Python
和Pandas
来处理数据,所以相关的资源会很好。