我有几十个全天空地图,二进制格式(FITS)每个大约有600MB。在全天空地图上处理源处理hadoop
对于每张天空地图,我已经有了几千个来源的位置目录,即恒星,星系,无线电源。
对于每个源,我想:
- 打开整个天空地图
- 提取相关的部分,通常是20MB以下
- 对它们运行的一些统计数据
- 聚集输出到目录
我想运行hadoop
,可能使用python
通过接口streaming
进行并行处理。
我觉得输入到映射器应该是目录中的每个记录, 那么python
映射器可以打开全天空图,做加工和打印输出到stdout
。
- 这是一个合理的方法吗?
- 如果是这样,我需要能够配置
hadoop
,以便将完整天空图本地复制到正在处理其来源之一的节点。我怎样才能做到这一点? - 此外,将输入数据提供给
hadoop
的最佳方法是什么?对于每个源我有一个参考全天空地图,经度和纬度