hdfs

0热度

1回答

我想在HDFS中释放一些空间，所以我需要找出一些不需要/未使用的HDFS块/文件，并且需要删除或存档。那么到目前为止，什么会被视为最佳解决方案呢？我正在使用Clouder发行版。（我的集群HDFS容量为900 TB，使用700 TB）

1热度

1回答

我有一个9k分区的表，其中我想删除约1200（表示3天）我想结合hadoop fs -rm和这3天的正则表达式，例如pr_load_time=2017070([1-4])(\d+)。的分区是这样的（我想匹配只有前两个在这里） pr_load_time=20170701000317 pr_load_time=20170704133602 pr_load_time=20170705000317

-2热度

1回答

为什么HDFS使用golang引发意想不到的EOF错误？

package main import ( "fmt" "github.com/colinmarc/hdfs" ) func main() { client, err := hdfs.New("192.168.0.38:50070") fs, err := client.ReadDir("/") fmt.Println(err) fm

1热度

1回答

从Hadoop 1.0.3中的AWS EMR上的HDFS清除数据

由于各种原因，我在使用AMI 2.4.11/Hadoop 1.0.3的EMR上运行一些作业。我试图通过添加额外的EMR步骤在作业之后运行HDFS清理。使用博托： step = JarStep( 'HDFS cleanup', 'command-runner.jar', action_on_failure='CONTINUE', step_args=['

0热度

1回答

当Spark从文件系统读取数据时，它会转到驱动程序？

我想知道Spark何时获取数据，数据是在驱动程序中摄入并发送给Worker，Spark是否指示节点从文件系统读取数据？我知道，在明确的kafka源码的火花流中，工作节点从kafka读取。但是，从文件系统读取时，我不确定它是如何工作的。壳体1 A - 当从假设文件系统是HDFS A.1文件系统读取 - 是否驾驶员读取的文件和数据传送到工人在旅途中还是他让工作人员读取文件 A.2-原始分区是由

0热度

2回答

星火SQL不看HDFS文件

我有一个火花应用程序，它在集群AWS EMR运行。我添加文件HDFS：HDFS上 javaSparkContext.addFile(filePath, recursive); 文件存在（日志可用：文件是可读/ executeble /写），但使用火花SQL API，我不能从该文件读取信息： LOGGER.info("Spark working directory: " + path); F

0热度

1回答

获取最新更新文件夹中的HDFS

我想从我的HDFS directories.I的一个最新的更新的文件夹是能够得到在HDFS文件系统的最新文件，但不知道如何做到这一点的HDFS one.I试图与外壳脚本。

0热度

1回答

HDFS - HBase复制不起作用

我对POC使用Prediction-IO。问题：我已设置HDFS复制因子为1。如果我创建HDFS任何样品文件，然后复制因子为1 但每当我尝试使用预测-IO加载数据（其使用HBase的），然后创建的所有文件，有3 复制因子请帮助。

2热度

1回答

来自HBase/Hive/Spark的流程

我正在用HDFS，Hive/HBase/Phoenix/Spark创建数据流的演示文稿。任何人都可以告诉我，下面的视图是否描述了正确的“序列”，以便说出数据流。因为一切都运行在HDFS之上，所以我设计它看起来像是在HDFS之上。

0热度

1回答

在cloudera管理器中，如何迁移已删除的datanode数据

我已被排除datanode主机“dn001”由“dfs_hosts_exclude.txt”，它的工作原理，如何也将datanode数据从此“dn001”迁移到其他datanodes？