hadoop-streaming

    -1热度

    1回答

    我想比较两个文件,如果没有匹配额外的记录加载到另一个文件与不匹配的记录。 同时比较文件和记录计数中的每个字段。

    0热度

    2回答

    我想运行一个Hadoop的Map Reduce我的机器上并运行工作的例子,我看到在我的终端下面的消息。我不知道它是什么意思。 O/P [email protected]:/usr/local/lib/hadoop-2.7.0/bin$ ./hadoop jar /home/anuvrattiku/Downloads/CardDriver.jar CardDriver input_dir outpu

    1热度

    1回答

    所以我必须从以前的作业的输出文件格式(txt文件) " 145 "Defects," 1 "Information 1 "Plain 2 "Project 5 "Right 1 #51302] 1 $5,000) 1 & 3 'AS-IS', 1 ( 1 ("the 1 每条线的左侧,是我读单词从文档和每行右侧的数字是我计算它的次数。我想使用Python & Hadoop

    0热度

    1回答

    最近,我在带有Win10操作系统的PC上试用了Google的Inception图像分类器。基本上我经历了这个tutorial/manual。 一言以蔽之的步骤是这些: 安装泊坞 安装Tensorflow 获取图片 检索训练码(retrain.py) 重新训练盗梦空间(运行retrain.py) 在图像上使用分类器 我的问题是我想要做同样的事情,但在Hadoop环境中,不幸的是我不知道该怎么做,因为

    2热度

    1回答

    我对多线程有一个总体概念,但不确定它是如何在Hadoop中使用的。根据我的知识,Yarn负责管理/控制Spark/Mapreduce作业资源,在这里无法想到多线程。不确定它是否可以在Hadoop Eco System的其他地方使用。 如果有人能提供这方面的信息,我将不胜感激。 非常感谢,

    0热度

    1回答

    使用ubuntu在oracle虚拟机上安装hadoop后,一切正常。但是当我在浏览器上运行localhost:50070时,我得到的是namenode健康状态,但在右下角没有Legacy UI选项,通过它我可以浏览文件系统。任何想法为什么?

    1热度

    1回答

    我试图将代码here从Scala版本改编为PySpark版本。下面是我使用的代码: conf = SparkConf().setAppName("Parse Xml File") sc = SparkContext(conf = conf) sqlContext = HiveContext(sc) sc._jsc.hadoopConfiguration().set(

    0热度

    1回答

    我正在为M2M IoT提供商工作。现场有数百万部署的物联网设备。数据由边缘设备聚合并发送到我们的中央服务器。服务器处理设备数据并将处理后的信息发送给各种其他子系统。 我们正在概念化分析引擎(AE)与现有系统并行的想法。来自物联网设备的数据应送入此引擎以进行不同类型的分析。示例:监控过去24小时内来自设备的事件,并计算出健康状况或预测其他内容。 我们正在试图找出在这方面的下列问题的答案: 1)我们应

    -2热度

    2回答

    在配置单元中传递参数不适用于我。我的代码: hive> set x='test variable'; hive> ${hiveconf:x}; 我得到这个错误: FAILED: Parse Error: line 1:0 cannot recognize input near ''test variable'' '<EOF>' '<EOF>'

    4热度

    2回答

    我想从sys.stdin中获取输入。这是hadoop的地图缩减程序。输入文件是以txt格式。该数据集的预览:我一直在试图 196 242 3 881250949 186 302 3 891717742 22 377 1 878887116 244 51 2 880606923 166 346 1 886397596 298 474 4 884182806 115 265 2 88117