apache-crunch

    1热度

    1回答

    我是apache紧缩中的新人,正在寻找阅读和编写apache紧缩中的Parquet文件。 我跟着文档和API,但没有得到直接的方法/做同样的方法。 PCollection<String> pipeLine = MemPipeline.collectionOf("Pineapple", "Banana", "Orange"); PCollection<Integer> b = pipeLine.

    0热度

    1回答

    我有一个要求,我想将5GB ORC文件分成5个文件,每个文件大小为1 GB。 ORC文件是可拆分的。这是否意味着我们只能通过分割来分割文件条带? 但我有要求根据大小拆分orc文件的位置。 将ex.split 5GB ORC文件分成5个文件,每个文件大小为1 GB。如果可能的话请分享示例 。

    2热度

    1回答

    我读Apache Crunch documentation,我发现下面的句子: 数据是从以流方式文件系统读取,所以有 对于PCollection的内容,以适应在内存 对于不要求它将通过物化来读入客户端。 我想知道read in from the filesystem in a streaming fashion是什么意思,如果有人能告诉我与其他类型的读取数据的方式有什么不同,那将会非常感谢。 我会

    1热度

    1回答

    基本上,我不需要从DoFn输出,只是想更新一些我在DoFn中获得的记录的一些MySQL数据库。那么我怎样才能定义具有无效数据类型的DoFn呢?基本上我不想发布任何形式的DoFn。

    0热度

    1回答

    虽然运行在一个Hadoop minicluster MapReduce工作测试,我得到错误: java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/mapreduce/MultiTableInputFormat at org.apache.crunch.io.hbase.HBaseSourceTarget.(HBaseSourceTarge

    1热度

    2回答

    我在将特定PCollection转换为特定PTable的util类中有这些方法。 public static PTable<IdDetails, CASegmentsForModification> getPTableForCASegments(PCollection<CASegmentsForModification> aggregatedPCollectionForCASegments) {

    1热度

    1回答

    在Apache Crunch中,有一种名为increment("any enum")的方法。 我用increment(TOTAL_IDS);,但我可以看到计数器的结果,计数器在工作完成后不会进入日志。 我在那里错过了什么?

    0热度

    1回答

    我有以下PTables, PTable<String, String> somePTable1 = somePCollection1.parallelDo(new SomeClass(), Writables.tableOf(Writables.strings(), Writables.strings())); PTable<String, Collection<String>> s

    0热度

    1回答

    我正在使用com.cloudera.crunch版本:'0.3.0-3-cdh-5.2.1'。 我有一个小程序,它读取一些AVRO并根据一些标准过滤掉无效数据。我正在使用pipeline.write(PCollection,AvroFileTarget)来写入无效的数据输出。它在生产运行中运行良好。 对于单元测试这段代码,我使用MemPipeline实例。 但是,在这种情况下写入输出时会失败。 我

    0热度

    1回答

    我正在浏览一些与HDFS体系结构和Apache紧缩PTable相关的文档。基于我的理解,当我们生成PTable时,数据在内部存储在HDFS中的数据节点上。 这意味着,如果我有与<K1,V1>,<K2,V2>,<K1,V3>,<K3,V4>,<K2,V5>和HDFS中的两个数据节点D1和D2的PTable。假设每个数据节点都有能力容纳3对。所以D1将持有<K1,V1>,<K2,V2>,<K1,V3>