0
我有一个庞大的新闻数据库,但每当我试图sqoop它,把它写到文件2-3,而不是整个200SQOOP不均匀输出文件大小
sqoop import -D mapred.map.max.attempts=4 \
-D dfs.blocksize=1073741824 \
-D oraoop.block.allocation=RANDOM \
-D mapred.job.queue.name=default \
-m 200 \
--split-by AUTHOR_ID \
--connect jdbc:oracle:thin:@$127.0.0.1:1521:SRDB \
--username abc \
--password 1234 \
--table L.ARTICLE \
--null-string '' \
--null-non-string '' \
--target-dir /data/output1.0
--outdir /tmp/output
但是,当我跑了,我得到了202个文件,而不是200个。其中只有3个文件有数据,剩余的输出文件都是空的。
我在做什么错?任何提示将不胜感激!
谢谢
非常感谢!写得很好。 – Gon
在这种情况下,我如何确保相同的AUTHOR_ID不会跨越多个文件? – Gon
@恩我没有明白。每个文件都由AUTHOR_ID上的一些范围查询创建,每个查询都不同,因此不同文件中会有不同的AUTHOR_ID。 –