2014-10-29 79 views
0

我想在S3文件系统上设置Tachyon。对于HDFS,tachyon有一个名为TACHYON_UNDERFS_HDFS_IMPL的参数,它被设置为“org.apache.hadoop.hdfs.DistributedFileSystem”。有谁知道S3是否存在这样的参数?如果是这样,它的价值是什么?文件系统下s3的Tachyon配置

在此先感谢您的帮助!

回答

1

您提到的Hadoop FS类型(org.apache.hadoop.hdfs.DistributedFileSystem)只是界面,它适合您的需求。相反,Tachyon创建基于在远程dfs的uri中指定的方案的s3n FileSystem实现,该方案配置为TACHYON_UNDERFS_ADDRESS。 对于Amazon来说,你需要这样的东西指定:

export TACHYON_UNDERFS_ADDRESS=s3n://your_bucket 

注 “S3N”,而不是 “S3” 在这里。

其他设置则需要使用S3的工作(见 Error in setting up Tachyon on S3 under filesystemhttp://tachyon-project.org/Setup-UFS.html):

  1. 在$ {} TACHYON /bin/tachyon-env.sh:加密钥ID和秘密钥匙TACHYON_JAVA_OPTS

    -Dfs.s3n.awsAccessKeyId=123 
    -Dfs.s3n.awsSecretAccessKey=456 
    
  2. 发布额外的依赖由S3N HADO要求在FileSystem实现中,版本取决于安装的Hadoop版本。这些是:commons-httpclients- *和jets3t- *。 为此,请按照上述链接之一发布TACHYON_CLASSPATH。这可以通过添加TACHYON_CLASSPATH在$ {} TACHYON出口/libexec/tachyon-config.sh出口前CLASSPATH来完成:

    export TACHYON_CLASSPATH=~/.m2/repository/commons-httpclient/commons-httpclient/3.1/commons-httpclient-3.1.jar:~/.m2/repository/net/java/dev/jets3t/jets3t/0.9.0/jets3t-0.9.0.jar 
    
    export CLASSPATH="$TACHYON_CONF_DIR/:$TACHYON_JAR:$TACHYON_CLASSPATH": 
    
  3. 开始的Tachyon集群:

    ./bin/tachyon format 
    ./bin/tachyon-start.sh local 
    

通过网络界面检查其可用性: http://localhost:19999/

in logs:

${TACHYON}/logs 
  • 核心的site.xml应该包含以下几个部分,以确保您使用的Tachyon集成(见右从斯卡拉配置星火参考http://tachyon-project.org/Running-Spark-on-Tachyon.html

    • fs.defaultFS - 指定的Tachyon主控主机端口(下面是默认值)
    • fs.default.name - 默认姓名o ˚FFS,和以前一样
    • fs.tachyon.impl - 超光速粒子的hadoop.FileSystem实施提示
    • fs.s3n。awsAccessKeyId - 亚马逊密钥ID
    • fs.s3n.awsSecretAccessKey - 亚马逊密钥

      <configuration> 
          <property> 
          <name>fs.defaultFS</name> 
          <value>tachyon://localhost:19998</value> 
          </property> 
          <property> 
          <name>fs.default.name</name> 
          <value>tachyon://localhost:19998</value> 
          <description>The name of the default file system. A URI 
              whose scheme and authority determine the 
              FileSystem implementation.      
          </description> 
          </property> 
          <property> 
          <name>fs.tachyon.impl</name> 
          <value>tachyon.hadoop.TFS</value> 
          </property> 
          ... 
          <property> 
          <name>fs.s3n.awsAccessKeyId</name> 
          <value>123</value> 
          </property> 
          <property> 
          <name>fs.s3n.awsSecretAccessKey</name> 
          <value>345</value> 
          </property> 
          ... 
      </configuration> 
      
  • 使用超光速粒子方案和主主机端口指任何路径:

    tachyon://master_host:master_port/path 
    

    默认Tachyon主控主机端口示例:

    tachyon://localhost:19998/remote_dir/remote_file.csv