2016-10-27 44 views

回答

1

据我所知,并不像人们想象的那样多。但我建议官方Python包hdfs 2.0.12可在website或从终端运行下载:

pip install hdfs 

的一些特点:

  • 的Python(2和3)绑定为WebHDFS (和HttpFS)API, 支持安全和不安全的群集。
  • 命令行界面 用于传输文件并启动交互式客户端shell,其别名为 ,以实现方便的namenode URL缓存。
  • 通过 可选扩展的其他功能:avro,可以直接从 HDFS读取和写入Avro文件。数据帧,以加载和保存熊猫数据框。 Kerberos,到 支持Kerberos认证的集群。
1

我试过蛇咬伤,hdfs3和hdfs。

Snakebite只支持下载(不上传),所以它不适合我。

在这些3只hdfs3的支持HA设置,所以这是我的选择,但我没让它用数据节点的主机名(这里所描述的问题:https://rainerpeter.wordpress.com/2014/02/12/connect-to-hdfs-running-in-ec2-using-public-ip-addresses/)与multihomed networks工作

所以我结束使用hdfs(2.0.16),因为它支持上传。我不得不使用bash添加一些解决方法来支持HA。

PS。有一篇比较有趣的文章比较了为与Hadoop文件系统交互而开发的Python库,文章位于http://wesmckinney.com/blog/python-hdfs-interfaces/

相关问题