2
夫妇的选择,我能想到如何将表格从红移转换为Parquet格式?然后
- 星火使用红移连接器
- 卸载到S3流回到S3的gzip压缩有一个命令行工具
不知道这是更好的过程。我不清楚如何轻松地将红移模式转化为镶木地板可以摄入的东西,但也许火花连接器会为我照顾。
夫妇的选择,我能想到如何将表格从红移转换为Parquet格式?然后
不知道这是更好的过程。我不清楚如何轻松地将红移模式转化为镶木地板可以摄入的东西,但也许火花连接器会为我照顾。
获取红移JDBC罐子和使用sparkSession.read.jdbc
与红移连接细节像这样在我的例子:
val properties = new java.util.Properties()
properties.put("driver", "com.amazon.redshift.jdbc42.Driver")
properties.put("url", "jdbc:redshift://redshift-host:5439/")
properties.put("user", "<username>") properties.put("password",spark.conf.get("spark.jdbc.password", "<default_pass>"))
val d_rs = spark.read.jdbc(properties.get("url").toString, "data_table", properties)
我的相关博客文章:http://garrens.com/blog/2017/04/09/connecting-apache-spark-to-external-data-sources/
星火流应该是在这种情况下无关紧要。
我也建议使用databricks spark-redshift软件包来使大块从redshift卸载并加载成spark更快。
为什么你想从红移流?出口通常是批量操作 – eliasah