我有一个需求,即需要从多个源系统(Mysql实例)每隔5分钟获取一次数据,并使用其他一些数据(S3中可以说)加入和丰富它们。Spark中的Mysql数据处理
我想在Spark中进行这个处理来将我的执行分配给多个执行者。
主要的问题是每次我在Mysql中进行查找时,我只想获取最新记录(可以用lastModifiedOn> timestamp来说)。 如何有效地选择性地获取MySql行? 这是我曾尝试:
val filmDf = sqlContext.read.format("jdbc")
.option("url", "jdbc:mysql://localhost/sakila")
.option("driver", "com.mysql.jdbc.Driver").option("dbtable", "film").option("user", "root").option("password", "")
.load()
你可以更新你已经尝试了什么你的问题? – eliasah
@eliasah是的将更新帖子。 – Karshit