aws-glue

3热度

2回答

我想使用AWS Glue将一些csv数据转换为orc。 ETL任务我创建生成以下PySpark脚本： import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.co

0热度

2回答

AWS CloudWatch日志未创建

我正在尝试使用AWS Glue运行将数据从Redshift读取到S3的ETL作业。当我运行爬网程序时，它成功连接到Redshift并获取模式信息。相关日志在日志组aws-glue/crawlers下创建。当我运行ETL作业时，它应该在日志组aws-glue/jobs/output和aws-glue/jobs/error下创建一个日志流，但它无法创建这样的日志流，并最终该工作也失败了。（我使用

0热度

1回答

AWS胶Dynamobd连接超时错误

import boto3 dynamodb = boto3.resource('dynamodb', region_name="us-east-1") table = dynamodb.Table('user_logs') response = table.scan() 我得到了上述AWS胶作业脚本 botocore.vendored.requests.exceptions.Connec

6热度

2回答

AWS胶水需要很长的时间才能完成

我只是运行一个非常简单的工作如下 glueContext = GlueContext(SparkContext.getOrCreate()) l_table = glueContext.create_dynamic_frame.from_catalog( database="gluecatalog", table_name="fctable") l_table = l

0热度

1回答

AWS Glue S3 VPC端点策略问题

当我为AWS Glue服务创建S3 VPC端点以从Redshift集群卸载数据时，ETL作业仅在VPC端点策略设置为“完全访问”时起作用。即 { "Statement": [ { "Action": "*", "Effect": "Allow", "Resource": "*", "Principal": "*"

0热度

1回答

AWS胶水：Rename_field（）relationalize

后，我得到了需要执行以下任务 Relationalize数据重命名包含字段名”工作不工作的，这样。它可以作为普通的外观名称导入到PostgreSQL中。下面是代码 import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context imp

2热度

3回答

ETL管道在AWS与S3作为datalake如何处理增量更新

我在AWS设置ETL管道如下 input_rawdata - > S3 - >拉姆达 - >触发火花ETL（通过AWS胶）脚本 - >输出（s3，parquet文件）我的问题是让我们假设上面是数据的初始负载，我该如何设置运行每天（或每小时）增加新行或更新现有记录的增量批次 a。）我如何继续添加到相同的s3镶木地板文件。以便随后的presto db查询产生最新的数据。 b。）如何处理重复记录获取查