google-cloud-dataproc

    0热度

    1回答

    我们每天都有一个Dataproc流程,代表我们的客户从多个来源导入数据进行分析。目前我们每天都没有收到大量的数据,但预计它会大幅增加。我们当前的过程有四个Dataproc Spark作业,它们在最终作业中导入,解析,加入并输出到Cloud SQL,在每个作业之间编写临时Avro文件。即使使用我们当前的数据级别,云端SQL也开始有点压力(部分原因是由于架构不佳)。我们希望转移到BigQuery,所以

    0热度

    1回答

    当我这样做: allf = spark.read.parquet("gs://bucket/folder/*") 我得到: java.lang.AssertionError: assertion failed: Conflicting directory structures detected. Suspicious paths: ...和路径列表后,下面的消息: If provided path

    1热度

    1回答

    我在谷歌云bigtable使用hbase来存储我的bigdata。我有2个程序。首先,使用python将数据存储到hbase中,然后通过连接到相同的端点从java读取这些信息。 所以从Python交互式壳我可以读字节数组返回到一个整数(命令15) In [13]: row.cells['stat']['viewability'][0].value Out[13]: '\x00\x00\x00\x

    0热度

    1回答

    Google的文档说,当我们创建一个dataproc集群时,它使用项目的默认服务帐户。 来源:https://cloud.google.com/sdk/gcloud/reference/beta/dataproc/clusters/create 是否可以使用非默认的其他一些其他的服务帐户?

    1热度

    1回答

    我有这段代码在几个月内工作正常,大约2个月前停止了Google Dataproc的工作,尽管我并没有改变任何一行。 我能重现bug用短短的几行,所以我没有张贴的代码块巨大: SparkConf sparkConf = new SparkConf().setAppName("test"); JavaSparkContext jsc = new JavaSparkContext(sparkConf)

    0热度

    1回答

    我担心有一个Google Cloud Dataproc群集的单个主节点可能引入单点故障。我希望我的集群在出现意外主站故障的情况下(更加)灵活。 是否可以配置我的Cloud Dataproc群集,以便使用某种形式的高可用性去除单个主服务器故障事件的风险?理想情况下我也想用纱线的标准方法/ Hadoop的/ HDFS高可用性,所以没有定制软件将被要求(或必须)

    0热度

    1回答

    随着每月只有5GB日志记录的更改,我们希望限制我们生成的日志量。每次我们启动Dataproc时,它都非常详细,并生成大量的日志数据。有没有一种方法可以将此限制为仅警告或高于消息?看起来像使用--properties来设置log4j级别是不可能的。

    2热度

    1回答

    我有一个应用程序可以并行执行处理要从Google Storage(我的项目存储桶)下载的数据的Python对象。该群集使用Google Dataproc创建。问题是数据永远不会被下载!我写了一个测试程序来试图理解这个问题。 我写了下面的功能将文件从桶复制,看看是否对工人创建文件不工作: from subprocess import call from os.path import join

    0热度

    1回答

    我需要从Google云端存储中读取文件,并根据文件中的字段transaction_date将其分割为多个文件。文件大小约为6TB(分成多个文件)。最有效的方法是什么?我必须使用Dataflow或Dataproc,还有其他简单的方法来做到这一点吗?

    1热度

    1回答

    我想下面的命令在谷歌云dataproc: apt-get install oozie-client 但dataproc未能列出Oozie的包库。 错误: [email protected]<master>:#> apt-get install oozie-client Reading package lists... Done Building dependency tree Readi