0
我有sqoop stmt与10 mappers。整个数据在hadoop中分成10个部分,每部分超过1GB。我想将数据分成多个小部分的文件,不用说超过10个,就像每个200MB的50个文件。但是由于数据库瓶颈问题,我无法在sqoop中创建超过10个映射器。让我知道是否有任何简单的解决方案。sqoop更多零件与小尺寸
我有sqoop stmt与10 mappers。整个数据在hadoop中分成10个部分,每部分超过1GB。我想将数据分成多个小部分的文件,不用说超过10个,就像每个200MB的50个文件。但是由于数据库瓶颈问题,我无法在sqoop中创建超过10个映射器。让我知道是否有任何简单的解决方案。sqoop更多零件与小尺寸
直接模式下有一个解决方案。
您可以使用--direct-split-size
(以字节为)
例子:--direct-split-size 200000000
意愿产生的约文件。 200 MB。
查看here了解更多详情。
当您说“但是由于数据库瓶颈问题,我无法在sqoop中创建超过10个映射器,这意味着如果您设置了10多个映射器,您的工作将失败? – dbustosp