Q

如何使用Spark/Scala从Azure blob获取文件列表？

2017-04-18 87 views 0 likes

0

如何从Spark和Scala中的Azure blob存储获取文件列表。如何使用Spark/Scala从Azure blob获取文件列表？

我没有得到任何想法来解决这个问题。

2017-04-18 sks

A

回答

0

我不知道你使用的Spark是在Azure上还是在本地。所以他们是两种情况，但类似。

要在本地运行的火花，有一个官方blog，介绍如何从星火访问Azure的Blob存储。关键是您需要在core-site.xml文件中将Azure存储帐户配置为HDFS兼容存储，并将两个罐子hadoop-azure & azure-storage添加到您的类路径中，以便通过协议wasb[s]访问HDFS。您可以参考官方的tutorial来了解HDFS兼容存储与和blog关于HDInsight配置的更多详细信息。
对于在Azure上运行的Spark，区别仅在于使用访问HDFS，其他准备工作是在使用Spark创建HDInsight群集时由Azure完成的。

的方法列出文件是listFiles或SparkContextwholeTextFiles。

希望它有帮助。

2017-04-19 09:18:15

相关问题