aws-glue

    3热度

    2回答

    我想使用AWS Glue将一些csv数据转换为orc。 ETL任务我创建生成以下PySpark脚本: import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.co

    0热度

    2回答

    我正在尝试使用AWS Glue运行将数据从Redshift读取到S3的ETL作业。 当我运行爬网程序时,它成功连接到Redshift并获取模式信息。相关日志在日志组aws-glue/crawlers下创建。 当我运行ETL作业时,它应该在日志组aws-glue/jobs/output和aws-glue/jobs/error下创建一个日志流,但它无法创建这样的日志流,并最终该工作也失败了。 (我使用

    0热度

    1回答

    import boto3 dynamodb = boto3.resource('dynamodb', region_name="us-east-1") table = dynamodb.Table('user_logs') response = table.scan() 我得到了上述AWS胶作业脚本 botocore.vendored.requests.exceptions.Connec

    6热度

    2回答

    我只是运行一个非常简单的工作如下 glueContext = GlueContext(SparkContext.getOrCreate()) l_table = glueContext.create_dynamic_frame.from_catalog( database="gluecatalog", table_name="fctable") l_table = l

    0热度

    1回答

    当我为AWS Glue服务创建S3 VPC端点以从Redshift集群卸载数据时,ETL作业仅在VPC端点策略设置为“完全访问”时起作用。 即 { "Statement": [ { "Action": "*", "Effect": "Allow", "Resource": "*", "Principal": "*"

    0热度

    1回答

    后,我得到了需要执行以下任务 Relationalize数据 重命名包含字段名”工作不工作的,这样。它可以作为普通的外观名称导入到PostgreSQL中。 下面是代码 import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context imp

    2热度

    3回答

    我在AWS设置ETL管道如下 input_rawdata - > S3 - >拉姆达 - >触发火花ETL(通过AWS胶)脚本 - >输出(s3,parquet文件) 我的问题是让我们假设上面是数据的初始负载,我该如何设置运行每天(或每小时)增加新行或更新现有记录的增量批次 a。)我如何继续添加到相同的s3镶木地板文件。以便随后的presto db查询产生最新的数据。 b。)如何处理重复记录获取查