hadoop

    1热度

    1回答

    我的问题听起来很愚蠢,但我是Hadoop map新手。所以我很难弄清楚。 我在地图缩减和Cloudera CDH4(4.1.1)中实现了K均值聚类。 数据由带有x和y坐标的点组成。因此,我正在更新每个步骤的质心,直到所有质心的变化都小于0.1。 因此,对于第一次迭代,我把使用 if (iteration == 0) { Path hdfsPath = new Path(input + "

    1热度

    1回答

    Programattically查找失败TaskAttempts如果我进入任务跟踪器,并期待在一个正在运行的作业,我可以很容易地看到运行/完成/失败/终止任务的尝试,并深入了解他们每个人的详细信息。 我希望能够以编程方式访问此信息,但JobClient类似乎没有任何方法直接访问此信息。由JobClient.getMapTaskReports()和JobClient.getReduceTaskRep

    0热度

    1回答

    我有一个输入bz2文件的文件夹,其中一些可能已损坏,我想在运行我的MR作业之前删除所有损坏/无效的bz2文件。做这件事的好方法是什么?

    3热度

    2回答

    我试图在Ubuntu 13.10 64位上设置最新的Hadoop 2.2单节点群集。操作系统是全新的安装,并且我尝试了使用java-6 64位和java-7 64位。 以下从this和失败,从this链接之后的步骤后,我无法启动nodemanager和resourcemanager用命令: sbin/yarn-daemon.sh start nodemanager sudo sbin/yarn-

    10热度

    3回答

    如果我写这样 ALTER TABLE tbl_name ADD PARTITION (dt=20131023) LOCATION 'hdfs://path/to/tbl_name/dt=20131023; 蜂巢SQL我如何可以查询这个位置大约分区以后呢?因为我发现存在位置的一些数据,但我不能对它们进行查询,蜂巢SQL像 SELECT data FROM tbl_name where dt=20

    1热度

    3回答

    下用Hadoop工作我下面"working with Hadoop under Eclipse"并试图运行 $ mvn install -DskipTests 一段时间后,当已经老了,我收到了一个错误: [ERROR] Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:3.0.0-SNAPSHOT:protoc (com

    0热度

    1回答

    我正在写一个减速器,每个键的值可能非常大(大于long值的范围)。我计划使用BigInteger作为值的类型,我注意到在猪中定义了一个类BigIntegerWritable。但是,我使用库pig-0.11.0.jar或pig-0.11.0-withouthadoop.jar进行编译。它找不到BigIntegerWritable。 这是我用来编译命令: javac -classpath /var/h

    0热度

    2回答

    我是Cloudera的新用户。我以前在hadoop上工作过,现在我想尝试Cloudera Hadoop。为此,我从Cloudera Hadoop VM开始。 以2GB大小以7zip格式下载的文件。当我尝试提取时,它显示错误 Can not open file cloudera-quickstart-vm-4.4.0-1-vmware.7z as archive. 所有其他文件都正确提取,但是这

    0热度

    2回答

    我想从eclipse上运行hadoop字数。但是我得到一个错误。我改变了输出目录,但程序行为没有改变。 你能不能帮我解决这个错误: 2013-10-23 23:06:13,783 WARN [main] conf.Configuration (Configuration.java:warnOnceIfDeprecated(816)) - session.id is deprecated. In

    6热度

    1回答

    当我运行使用m1.large作为要由作业流创建的hadoop实例的实例类型的Amazon EMR作业时,出现“设备上没有剩余空间”错误。工作生成约。最大10 GB的数据,因为m1.large实例的容量应该是420GB * 2(根据:EC2 instance types)。我很困惑10GB数据如何导致“磁盘空间已满”类型的消息。我意识到如果我们已经完全耗尽了文件系统允许的inode总数,也可能会产生