回答

0

我不知道你使用的Spark是在Azure上还是在本地。所以他们是两种情况,但类似。

  1. 要在本地运行的火花,有一个官方blog,介绍如何从星火访问Azure的Blob存储。关键是您需要在core-site.xml文件中将Azure存储帐户配置为HDFS兼容存储,并将两个罐子hadoop-azure & azure-storage添加到您的类路径中,以便通过协议wasb[s]访问HDFS。您可以参考官方的tutorial来了解HDFS兼容存储与和blog关于HDInsight配置的更多详细信息。

  2. 对于在Azure上运行的Spark,区别仅在于使用访问HDFS,其他准备工作是在使用Spark创建HDInsight群集时由Azure完成的。

的方法列出文件是listFilesSparkContextwholeTextFiles

希望它有帮助。

相关问题