mapr

    1热度

    1回答

    我具有与每个40GB存储器的四个节点Hadoop集群(MAPR)。我需要在大数据集的一个字段上“应用”一个函数(500万行)。我的代码的流程是,我读了蜂巢表中的数据作为一个火花数据帧和应用上的一列所需的功能如下: schema = StructType([StructField("field1", IntegerType(), False), StructField("field2", Strin

    0热度

    1回答

    我正在使用spark“Spark 1.6.1-mapr-1604”版本。 我在本地模式下的作业成功执行,但是当我在纱线簇模式下启动相同作业时,它会抛出ExceptionInInitializerError。 本地模式命令: spark-submit --class com.ts.clustering.TrainModel \ ts-0.0.1-SNAPSHOT.jar \ -model /us

    1热度

    2回答

    从编码的角度来看,kafka和mapr流之间有什么不同?我需要将来实现mapr流,但目前我只能访问kafka,因此现在探索kafka是有用的吗?这样一旦我获得访问权限,我就可以轻松地从Mapr流中获取信息了吗?

    0热度

    1回答

    我们有下面的用例,并且想知道表MaprDBDB/HBase设计的一般建议是什么。 我们的数据由用户(称为唯一的用户名)和计数(每小时的整数值)组成 我们有10K-100K的请求更新数据库每10secs。我们必须存储8000小时的数据以供每个用户使用。 我试图创建单行rowkey作为用户名和1“计数”列8000版本。但我不能“增加”一个特定的版本,具体取决于进入的数据时间(Hbase“Increme

    -1热度

    1回答

    我想手动安装mapr-zookeeper-5.0.0.32987到commandline,但是当我提供版本给yum install mapr-zookeeper-5.0.0.32987时,它给我提供了没有包可用的错误。 如何安装MAPR-饲养员-5.0.0,因为我不能用"yum install mapr-zookeeper",因为它将安装mapr-zookeeper-5.1.0

    1热度

    1回答

    我正在使用具有3个节点的MapR(YARN)群集。我正在尝试在集群上部署6个Samza作业,以便对数据流进行一些处理。所有工作都是正确的。我试着平行部署2-3个工作。 但是,当我平行部署所有6个Samza作业时,我会看到以下日志。任务继续运行,不产生预期的输出数据流。 在我的ResourceManager网络信息中心节点的状态如下 - 任何人都可以提出如何加以解决。我认为,应用程序可能没有足够的资

    0热度

    2回答

    我们正在从Hbase 0.94转移到Hbase 1.1.1版本。我们的应用程序代码使用HRegionInterface API,现在它在Hbase 1.1.1中不可用。任何人都可以建议我使用HRegionServers的替代API吗?

    0热度

    1回答

    我是HBase的新手。我想通过python插入一些数据到HBase中。我搜索了一下,发现Python中有HBase的HappyBase api,但根据我的理解和发现,它不适用于Mapr M7。 请指导哪些包必须在Python中导入。 谢谢。

    3热度

    2回答

    我有一套50GB的〜1GB tiff图像,我需要运行相同的算法。目前,我已经用C++编写了纠正过程,并且效果很好,但是要连续运行所有这些图像需要花费很长时间。我明白MapReduce/Spark的实现可以工作,但我似乎无法弄清楚如何使用图像输入/输出。 我见过的每个教程/示例都使用纯文本。理论上,我也想利用Amazon Web Services。如果有人对我有一些指导,那会很棒。我显然不是在寻找一

    0热度

    1回答

    我需要将我的Spark Streaming检查点文件保存在HDFS目录中。我可以访问安装有MAPR的远程群集。 但是,我不知道哪条路径上MAPR表示到HDFS目录 是opt/mapr/..?