2016-11-23 66 views
2

OSM数据以PBF格式提供。有专门的库(例如https://github.com/plasmap/geow用于解析这些数据)。在Spark中处理(OSM)PBF文件

我想将这些数据存储在S3上,并将数据作为EMR作业的一部分解析到RDD中。

什么是直接实现此目的的方法?我可以将文件提取到主节点并在本地进行处理吗?如果是这样,我会创建一个空的RDD并添加到它作为流事件从输入文件解析?

回答

1

一个解决方案是跳过PBF。一个Spark的友好代表是镶木地板。在this blog post中显示了如何将PBF转换为Parquets以及如何将数据加载到Spark中。