hdfs

    0热度

    1回答

    我想在HDFS中释放一些空间,所以我需要找出一些不需要/未使用的HDFS块/文件,并且需要删除或存档。那么到目前为止,什么会被视为最佳解决方案呢?我正在使用Clouder发行版。 (我的集群HDFS容量为900 TB,使用700 TB)

    1热度

    1回答

    我有一个9k分区的表,其中我想删除约1200(表示3天) 我想结合hadoop fs -rm和这3天的正则表达式,例如pr_load_time=2017070([1-4])(\d+)。 的分区是这样的(我想匹配只有前两个在这里) pr_load_time=20170701000317 pr_load_time=20170704133602 pr_load_time=20170705000317

    -2热度

    1回答

    package main import ( "fmt" "github.com/colinmarc/hdfs" ) func main() { client, err := hdfs.New("192.168.0.38:50070") fs, err := client.ReadDir("/") fmt.Println(err) fm

    1热度

    1回答

    由于各种原因,我在使用AMI 2.4.11/Hadoop 1.0.3的EMR上运行一些作业。我试图通过添加额外的EMR步骤在作业之后运行HDFS清理。使用博托: step = JarStep( 'HDFS cleanup', 'command-runner.jar', action_on_failure='CONTINUE', step_args=['

    0热度

    1回答

    我想知道Spark何时获取数据,数据是在驱动程序中摄入并发送给Worker,Spark是否指示节点从文件系统读取数据? 我知道,在明确的kafka源码的火花流中,工作节点从kafka读取。但是,从文件系统读取时,我不确定它是如何工作的。 壳体1 A - 当从假设 文件系统是HDFS A.1文件系统读取 - 是否驾驶员读取的文件和数据传送到工人 在旅途中还是他让工作人员读取文件 A.2-原始分区是由

    0热度

    2回答

    我有一个火花应用程序,它在集群AWS EMR运行。 我添加文件HDFS:HDFS上 javaSparkContext.addFile(filePath, recursive); 文件存在(日志可用:文件是可读/ executeble /写),但使用火花SQL API,我不能从该文件读取信息: LOGGER.info("Spark working directory: " + path); F

    0热度

    1回答

    我想从我的HDFS directories.I的一个最新的更新的文件夹是能够得到在HDFS文件系统的最新文件,但不知道如何做到这一点的HDFS one.I试图与外壳脚本。

    0热度

    1回答

    我对POC使用Prediction-IO。 问题:我已设置HDFS复制因子为1。 如果我创建HDFS任何样品文件,然后复制因子为1 但每当我尝试使用预测-IO加载数据(其使用HBase的),然后创建的所有文件,有3 复制因子请帮助。

    2热度

    1回答

    我正在用HDFS,Hive/HBase/Phoenix/Spark创建数据流的演示文稿。任何人都可以告诉我,下面的视图是否描述了正确的“序列”,以便说出数据流。因为一切都运行在HDFS之上,所以我设计它看起来像是在HDFS之上。

    0热度

    1回答

    我已被排除datanode主机“dn001”由“dfs_hosts_exclude.txt”,它的工作原理,如何也将datanode数据从此“dn001”迁移到其他datanodes?