hadoop-lzo

0热度

2回答

NoSuchElementException当使用sqoop从hdfs将数据导出到mysql时

我想使用sqoop将一些数据从hdfs导出到mysql。问题是，当我试图导出一个未压缩文件时，它会正确导出，但如果我尝试导出压缩了lzo压缩的同一文件，sqoop作业将失败。我正在标准cloudera CDH4 VM环境中尝试它。文件中的列由tab分隔，null表示为'\ N'。文件内容： [[email protected] ~]$ cat dipayan-test.txt dipayan

0热度

1回答

创建的蜂巢表LZO压缩，不能找到文件扩展名为.lzo

我通过设置在蜂房以下命令提示符属性创建的蜂巢表： SET mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec SET hive.exec.compress.output=true SET mapreduce.output.fileoutputformat.compress=t

0热度

1回答

S3上的LZO文件问题

我在HDFS中有3个LZO压缩文件及其相应的索引文件。 Permission Owner Group Size Replication Block Size Name -rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS -rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo -rw

0热度

1回答

在Spark DataFrame中读取json行的LZO文件

我在HDFS中有一个大的索引lzo文件，我想在spark数据框中读取它。该文件包含json文档的行。 posts_dir='/data/2016/01' posts_dir有以下几点： /data/2016/01/posts.lzo /data/2016/01/posts.lzo.index 下工作，但是没有使用索引，因此需要很长的时间，因为它仅使用一个映射。 posts = spark