google-cloud-dataproc

0热度

1回答

我们每天都有一个Dataproc流程，代表我们的客户从多个来源导入数据进行分析。目前我们每天都没有收到大量的数据，但预计它会大幅增加。我们当前的过程有四个Dataproc Spark作业，它们在最终作业中导入，解析，加入并输出到Cloud SQL，在每个作业之间编写临时Avro文件。即使使用我们当前的数据级别，云端SQL也开始有点压力（部分原因是由于架构不佳）。我们希望转移到BigQuery，所以

0热度

1回答

火花 “基本路径” 选项设置

当我这样做： allf = spark.read.parquet("gs://bucket/folder/*") 我得到： java.lang.AssertionError: assertion failed: Conflicting directory structures detected. Suspicious paths: ...和路径列表后，下面的消息： If provided path

1热度

1回答

无法获取存储在PHP中的PHP整数回到谷歌谷云

我在谷歌云bigtable使用hbase来存储我的bigdata。我有2个程序。首先，使用python将数据存储到hbase中，然后通过连接到相同的端点从java读取这些信息。所以从Python交互式壳我可以读字节数组返回到一个整数（命令15） In [13]: row.cells['stat']['viewability'][0].value Out[13]: '\x00\x00\x00\x

0热度

1回答

在Google dataproc上更改服务帐户

Google的文档说，当我们创建一个dataproc集群时，它使用项目的默认服务帐户。来源：https://cloud.google.com/sdk/gcloud/reference/beta/dataproc/clusters/create 是否可以使用非默认的其他一些其他的服务帐户？

1热度

1回答

Spark工作变得与Google Dataproc不兼容

我有这段代码在几个月内工作正常，大约2个月前停止了Google Dataproc的工作，尽管我并没有改变任何一行。我能重现bug用短短的几行，所以我没有张贴的代码块巨大： SparkConf sparkConf = new SparkConf().setAppName("test"); JavaSparkContext jsc = new JavaSparkContext(sparkConf)

0热度

1回答

云端Dataproc是否支持高可用性？

我担心有一个Google Cloud Dataproc群集的单个主节点可能引入单点故障。我希望我的集群在出现意外主站故障的情况下（更加）灵活。是否可以配置我的Cloud Dataproc群集，以便使用某种形式的高可用性去除单个主服务器故障事件的风险？理想情况下我也想用纱线的标准方法/ Hadoop的/ HDFS高可用性，所以没有定制软件将被要求（或必须）

0热度

1回答

使数据放大器不再冗长

随着每月只有5GB日志记录的更改，我们希望限制我们生成的日志量。每次我们启动Dataproc时，它都非常详细，并生成大量的日志数据。有没有一种方法可以将此限制为仅警告或高于消息？看起来像使用--properties来设置log4j级别是不可能的。

2热度

1回答

使用Spark（Python）和Dataproc从Google Storage下载文件

我有一个应用程序可以并行执行处理要从Google Storage（我的项目存储桶）下载的数据的Python对象。该群集使用Google Dataproc创建。问题是数据永远不会被下载！我写了一个测试程序来试图理解这个问题。我写了下面的功能将文件从桶复制，看看是否对工人创建文件不工作： from subprocess import call from os.path import join

0热度

1回答

Google云端存储 - 按文件中的值拆分文件

我需要从Google云端存储中读取文件，并根据文件中的字段transaction_date将其分割为多个文件。文件大小约为6TB（分成多个文件）。最有效的方法是什么？我必须使用Dataflow或Dataproc，还有其他简单的方法来做到这一点吗？

1热度

1回答

Dataproc未能安装Oozie的包

我想下面的命令在谷歌云dataproc： apt-get install oozie-client 但dataproc未能列出Oozie的包库。错误： [email protected]<master>:#> apt-get install oozie-client Reading package lists... Done Building dependency tree Readi