google-bigquery

    2热度

    2回答

    我有表A中,其中列中的一个是像 +- children: record (repeated) | |- name: string | |- gender: string | |- age: integer 我有一个表B,其中所述柱中的一个是STRING一个重复RECORD(重复) +- names : string (repeated

    0热度

    2回答

    我使用上Pyspark以下代码导入从BigQuery资料: table_data = sc.newAPIHadoopRDD( 'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat', 'org.apache.hadoop.io.LongWritable', 'com.google.gson.Js

    3热度

    1回答

    嵌套查询意外的结果考虑下面的查询(标准语法): WITH v AS ( SELECT _TABLE_SUFFIX AS y, * FROM `bigquery-public-data.noaa_gsod.gsod*` WHERE _TABLE_SUFFIX > '2000') SELECT y, C

    0热度

    1回答

    我有一个函数内部的BigQuery查询,如下所示: def get_data_from_bigquery(): """query bigquery to get data to import to PSQL""" app_id = get_app_id() bq = bigquery.Client(project=app_id) query = """SEL

    2热度

    1回答

    我需要编写一些SQL代码的帮助,并且我发现的所有答案都似乎假设了静态数据并设置了需要左连接的开始和结束日期。这是不同的。 设置 我在谷歌板的表,其基本上 客户,广告活动,日期,结束日期,DAILY_BUDGET 客户端1,广告活动1,2017年1月2日, 2017年1月12日,10.00 客户端2,广告活动1,2017年1月3日,2017年2月15日,34.09 这个列表总是与新客户,新的活动等日

    0热度

    1回答

    MongoDB包含准备好用于客户端应用程序的数据。原始数据存储在Google BigQuery(GBQ)中。每天都有大量新数据被添加到GBQ中,并且每天一次几乎所有MongoDB中的数据都需要根据GBQ中的最新数据进行更新。所有过期的(未更新的)记录都必须删除。 什么是正确的方式来处理MongoDB更新接近0宕机? 其中疯狂的解决方案:可能是我应该有两个MongoDB实例,一个在生产,另一个正在更

    0热度

    1回答

    我试图构建一个ETL来加载一个Dimension表。我使用Python和DataFlow和BigQuery来分配Apache Bea。 我需要为pcollection的每个元素分配一个序列号,以便将其加载到BigQuery中,但我找不到任何方法来执行此操作。 我想我需要DataFlow使先前的聚合和连接,以获得我最后的pcollection添加序列号,但在这一刻我需要停止并行处理,并将我的pcol

    0热度

    2回答

    我想重复下面的代码与按月,这样我可以为月度数据的画面仪表盘脱机每个月谁去: SELECT Deal_ID, Category, MONTH(date), YEAR(date) FROM [big-query-1233:BI_Automation.live_deals_history_since_15_sep] WHERE MONTH(date)

    0热度

    1回答

    我正在尝试使用Google Datalab-BigQuery魔术命令通过datalab笔记本将数据插入到BigQuery表中。 当我运行这段代码时,它正常工作,正确显示表中的数据; INSERT mydataset.sampletable (word, count) VALUES('testing', 7) 不过,我想有自己的变量,我会再插入BQ字符串“测试”和7号。我已设置: test =

    1热度

    2回答

    我试图在Hive中创建一个外部表,并使用存储在Avro格式的Google存储中的相同数据在BigQuery中创建另一个表。 我使用的是Dataproc集群星火2.2.0,星火的Avro 4.0.0和2.1.1蜂房 有Avro的版本/包之间的差异一样,但如果我创建使用蜂巢表和然后我使用Spark编写文件,我可以在Hive中看到它们。 但是对于BigQuery是不同的,它能够读取Hive Avro文件