在Spark中处理（OSM）PBF文件

OSM数据以PBF格式提供。有专门的库（例如https://github.com/plasmap/geow用于解析这些数据）。在Spark中处理（OSM）PBF文件

我想将这些数据存储在S3上，并将数据作为EMR作业的一部分解析到RDD中。

什么是直接实现此目的的方法？我可以将文件提取到主节点并在本地进行处理吗？如果是这样，我会创建一个空的RDD并添加到它作为流事件从输入文件解析？

2016-11-23 Synesso

一个解决方案是跳过PBF。一个Spark的友好代表是镶木地板。在this blog post中显示了如何将PBF转换为Parquets以及如何将数据加载到Spark中。

2017-09-28 13:50:29

回答