我是一个完整的新手,因此无法通过查看过去的帖子找到解决方案。我有一个地理数据库(ESRI ArcMAP,大约70k条记录),其中包含从两个数据库中合并的道路杀死数据。查找近似重复查询
Ex。
Date_, Route, MilePost, Database
10/1/2012, ML34, 113, Animal_Vehicle
10/2/2012, ML34, 113.4, Carcasses
10/2/2012, ML16, 86, Carcasses
我想清理两个数据库之间的重复记录。 MilePost
,Route
和Date_
的记录已被删除。问题是这样的:Animal_Vehicle
可以在任何时间或一周中的某一天记录冲突,而来自Carcasses
数据库的记录仅在正常工作时间记录。因此,在前一天或周末过后的几小时内由Animal_Vehicle
记录的尸体重复产生。然后在第二天早上或在星期一(或假期周末时的星期二)将记录复制Carcasse
。另一个问题是Animal_Vehicle MilePosts
倾向于四舍五入到最接近的半英里,而Carcasses MilePosts
更精确。
的目标是建立一个查询或算法返回两个Database
值之间配对的记录,因此当Database=Carcasses
,该查询返回记录与Database=Animal_Vehicle
,其中MilePost
是+/-的Carcasses
纪录的0.4, Date_
是Carcasses
记录的最后四天内。它会返回示例数据的前两行。
任何反应非常感谢!谢谢!
查看http://code.google.com/p/google-refine/,可能它对您的任务很有用。 – AndreKR
这是一个有趣的链接,谢谢! – user1938198