hadoop-lzo

    0热度

    2回答

    我想使用sqoop将一些数据从hdfs导出到mysql。问题是,当我试图导出一个未压缩文件时,它会正确导出,但如果我尝试导出压缩了lzo压缩的同一文件,sqoop作业将失败。我正在标准cloudera CDH4 VM环境中尝试它。文件中的列由tab分隔,null表示为'\ N'。 文件内容: [[email protected] ~]$ cat dipayan-test.txt dipayan

    0热度

    1回答

    我通过设置在蜂房以下命令提示符属性创建的蜂巢表: SET mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec SET hive.exec.compress.output=true SET mapreduce.output.fileoutputformat.compress=t

    0热度

    1回答

    我在HDFS中有3个LZO压缩文件及其相应的索引文件。 Permission Owner Group Size Replication Block Size Name -rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS -rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo -rw

    0热度

    1回答

    我在HDFS中有一个大的索引lzo文件,我想在spark数据框中读取它。该文件包含json文档的行。 posts_dir='/data/2016/01' posts_dir有以下几点: /data/2016/01/posts.lzo /data/2016/01/posts.lzo.index 下工作,但是没有使用索引,因此需要很长的时间,因为它仅使用一个映射。 posts = spark