0
亚马逊EMR的“开发指南”中引用,在输入目录中的文件格式应为纯文本。这是否意味着我不能上传一些二进制文件或.png文件和python脚本解析它们?亚马逊电子病历的输入数据,是唯一合法的格式纯文本?
亚马逊EMR的“开发指南”中引用,在输入目录中的文件格式应为纯文本。这是否意味着我不能上传一些二进制文件或.png文件和python脚本解析它们?亚马逊电子病历的输入数据,是唯一合法的格式纯文本?
可能不会。例如见:https://groups.google.com/a/cloudera.org/forum/?fromgroups=#!topic/cdh-user/AUUZ0DKiJGw
你可以做的是有一个输入数据是文件名本身(无论是在S3或HDFS)。 Hadoop流式处理脚本将获取文件名作为输入,它可以打开并处理它认为合适的文件。
我曾尝试自己。输入二进制文件是可以的,但二进制文件将被分割成几个较小的文件并加载。 – kururu 2013-05-02 08:31:53