我想从Zeppelin笔记本中读取位于Amazon S3中的avro文件。我理解Databricks有一个很好的包spark-avro
。为了将这个jar文件引导到我的集群并使其工作,我需要采取哪些步骤?引导Amazon EMR集群的spark-avro jar
当我写这在我的笔记本上, val df = sqlContext.read.avro("s3n://path_to_avro_files_in_one_bucket/")
我得到下面的错误 - <console>:34: error: value avro is not a member of org.apache.spark.sql.DataFrameReader
我有看this。我猜那里发布的解决方案不适用于最新版本的Amazon EMR。
如果有人能给我指针,那真的会有所帮助。