我有一个管道分隔的文本文件,它是360GB压缩文件(gzip)。 它有超过1,620列。我不能准确显示字段名,但这里是它基本上是什么:在aws的360gb文本文件中将1620列转换为360gb文本文件中的行
primary_key|property1_name|property1_value|property800_name|property800_value
12345|is_male|1|is_college_educated|1
严重的是,有超过这些属性名称/值字段800。 大约有2.8亿行。 该文件位于S3存储桶中。 我需要将数据导入Redshift,但Redshift中的列限制为1,600。
用户希望我转发数据。例如:
primary_key|key|value
12345|is_male|1
12345|is_college_educated|1
什么是转动的AWS环境中的文件的好办法?数据在一个文件中,但我计划将数据分成许多不同的文件以允许并行处理。
我考虑过使用雅典娜。我找不到任何说明雅典娜允许的最大列数的内容。但是,我发现了一个关于普雷斯托(Presto)(雅典娜是基于此)的网页,上面写着“没有确切的硬限制,但我们已经看到有超过几千的东西突破。”(https://groups.google.com/forum/#!topic/presto-users/7tv8l6MsbzI)。
谢谢。