我使用的是Apache Spark,我必须从Amazon S3解析文件。如何从Amazon S3路径获取文件时知道文件扩展名?使用Apache Spark解析Amazon S3中的文件
1
A
回答
1
我建议遵循Cloudera的教程Accessing Data Stored in Amazon S3 through Spark
要访问的Spark应用程序存储在Amazon S3的数据,你可以 使用的Hadoop文件的API(
SparkContext.hadoopFile
,JavaHadoopRDD.saveAsHadoopFile
,SparkContext.newAPIHadoopRDD
和JavaHadoopRDD.saveAsNewAPIHadoopFile
)进行读取和编写RDD, 提供表格s3a://bucket_name/path/to/file.txt
的URL。您可以使用Data Source API读写Spark SQL DataFrame。
关于文件扩展名,有几个解决方案。 您可以简单地使用扩展名(即file.txt
)。
如果您的扩展程序被存储在S3存储桶中的文件删除,您仍然可以知道为每个S3资源添加的元数据的内容类型。
http://docs.aws.amazon.com/AmazonS3/latest/API/RESTObjectHEAD.html
相关问题
- 1. 从Apache Spark访问公共可用的Amazon S3文件
- 2. PHP:从Amazon SES保存到S3的文件中解析邮件
- 3. 解析JavaScript中的Amazon S3输出
- 4. 在Amazon EC2上使用HDFS和Apache Spark
- 5. Spark Streaming checkpoint to amazon s3
- 6. 在apache spark中用模式解析文件
- 7. 将Spark RDD编写为Amazon s3中的Gzip文件
- 8. 如何解析Apache Spark中的xml文件?
- 9. 解析Apache Spark中的XML数据
- 10. 使用Apache Spark/Spark SQL加入文件
- 11. 在Amazon S3上解压ZIP文件
- 12. 从Apache Spark将分段上传到Amazon S3
- 13. 如何删除X旧文件在Amazon S3中使用Amazon CLI
- 14. 从HDFS使用文件到Apache Spark中
- 15. Apache Spark解析分裂记录的json
- 16. 使用Apache Tika解析XML文件
- 17. 使用apache骆驼解析pdf文件
- 18. 使用Apache PDFBox解析PDF文件
- 19. 使用Django从Amazon S3下载文件
- 20. 使用FTP在Amazon S3上传文件
- 21. 使用TransferManager删除文件Amazon S3
- 22. 使用PHP处理Amazon S3文件夹
- 23. C#列表中的Amazon S3文件夹
- 24. S3.php - 将文件写入到Amazon S3
- 25. 将Amazon S3集成到OSGi(Apache Felix)中
- 26. 上传文件到Amazon S3
- 27. Redis,AOF文件和Amazon S3
- 28. 添加文件夹中的Amazon S3桶
- 29. 解析apache日志文件
- 30. Amazon S3连接小文件
谢谢你的回答。 还有一个问题是,我如何知道像(json,csv,txt)这样的文件扩展名,我从S3获取哪种类型的文件。 –
@Vpn_talent只需编写答案的其余部分... – freedev
为什么你要寻找扩展?你的s3文件末尾没有扩展名吗? – freedev