apache-crunch

1热度

1回答

我是apache紧缩中的新人，正在寻找阅读和编写apache紧缩中的Parquet文件。我跟着文档和API，但没有得到直接的方法/做同样的方法。 PCollection<String> pipeLine = MemPipeline.collectionOf("Pineapple", "Banana", "Orange"); PCollection<Integer> b = pipeLine.

0热度

1回答

如何根据大小拆分ORC文件？

我有一个要求，我想将5GB ORC文件分成5个文件，每个文件大小为1 GB。 ORC文件是可拆分的。这是否意味着我们只能通过分割来分割文件条带？但我有要求根据大小拆分orc文件的位置。将ex.split 5GB ORC文件分成5个文件，每个文件大小为1 GB。如果可能的话请分享示例。

2热度

1回答

以“流媒体时尚”的形式读取数据是什么意思？

我读Apache Crunch documentation，我发现下面的句子：数据是从以流方式文件系统读取，所以有对于PCollection的内容，以适应在内存对于不要求它将通过物化来读入客户端。我想知道read in from the filesystem in a streaming fashion是什么意思，如果有人能告诉我与其他类型的读取数据的方式有什么不同，那将会非常感谢。我会

1热度

1回答

如何在apache紧缩中定义具有“无效”数据类型的DoFn？

基本上，我不需要从DoFn输出，只是想更新一些我在DoFn中获得的记录的一些MySQL数据库。那么我怎样才能定义具有无效数据类型的DoFn呢？基本上我不想发布任何形式的DoFn。

0热度

1回答

java.lang.NoClassDefFoundError：组织/阿帕奇/的Hadoop/HBase的/ MapReduce的/ MultiTableInputFormat

虽然运行在一个Hadoop minicluster MapReduce工作测试，我得到错误： java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/mapreduce/MultiTableInputFormat at org.apache.crunch.io.hbase.HBaseSourceTarget.(HBaseSourceTarge

1热度

2回答

在Apache Crunch中是否有将PCollection转换为PTable的通用方法？

我在将特定PCollection转换为特定PTable的util类中有这些方法。 public static PTable<IdDetails, CASegmentsForModification> getPTableForCASegments(PCollection<CASegmentsForModification> aggregatedPCollectionForCASegments) {

1热度

1回答

如何在apache中使用计数器

在Apache Crunch中，有一种名为increment("any enum")的方法。我用increment(TOTAL_IDS);，但我可以看到计数器的结果，计数器在工作完成后不会进入日志。我在那里错过了什么？

0热度

1回答

遍历PTABLE在紧缩

我有以下PTables， PTable<String, String> somePTable1 = somePCollection1.parallelDo(new SomeClass(), Writables.tableOf(Writables.strings(), Writables.strings())); PTable<String, Collection<String>> s

0热度

1回答

使用紧缩写入时java.lang.UnsatisfiedLinkError MemPipeline

我正在使用com.cloudera.crunch版本：'0.3.0-3-cdh-5.2.1'。我有一个小程序，它读取一些AVRO并根据一些标准过滤掉无效数据。我正在使用pipeline.write（PCollection，AvroFileTarget）来写入无效的数据输出。它在生产运行中运行良好。对于单元测试这段代码，我使用MemPipeline实例。但是，在这种情况下写入输出时会失败。我

0热度

1回答

Apache Crunch PTable collectValues如何在内部工作

我正在浏览一些与HDFS体系结构和Apache紧缩PTable相关的文档。基于我的理解，当我们生成PTable时，数据在内部存储在HDFS中的数据节点上。这意味着，如果我有与<K1,V1>,<K2,V2>,<K1,V3>,<K3,V4>,<K2,V5>和HDFS中的两个数据节点D1和D2的PTable。假设每个数据节点都有能力容纳3对。所以D1将持有<K1,V1>,<K2,V2>,<K1,V3>