hadoop-streaming

-1热度

1回答

我想比较两个文件，如果没有匹配额外的记录加载到另一个文件与不匹配的记录。同时比较文件和记录计数中的每个字段。

0热度

2回答

我想运行一个Hadoop的Map Reduce我的机器上并运行工作的例子，我看到在我的终端下面的消息。我不知道它是什么意思。 O/P [email protected]:/usr/local/lib/hadoop-2.7.0/bin$ ./hadoop jar /home/anuvrattiku/Downloads/CardDriver.jar CardDriver input_dir outpu

1热度

1回答

查找最-K

所以我必须从以前的作业的输出文件格式（txt文件） " 145 "Defects," 1 "Information 1 "Plain 2 "Project 5 "Right 1 #51302] 1 $5,000) 1 & 3 'AS-IS', 1 ( 1 ("the 1 每条线的左侧，是我读单词从文档和每行右侧的数字是我计算它的次数。我想使用Python & Hadoop

0热度

1回答

如何在Hadoop环境中对Inception图像分类器进行再培训

最近，我在带有Win10操作系统的PC上试用了Google的Inception图像分类器。基本上我经历了这个tutorial/manual。一言以蔽之的步骤是这些：安装泊坞安装Tensorflow 获取图片检索训练码（retrain.py）重新训练盗梦空间（运行retrain.py）在图像上使用分类器我的问题是我想要做同样的事情，但在Hadoop环境中，不幸的是我不知道该怎么做，因为

2热度

1回答

Hadoop/Spark中的多线程

我对多线程有一个总体概念，但不确定它是如何在Hadoop中使用的。根据我的知识，Yarn负责管理/控制Spark/Mapreduce作业资源，在这里无法想到多线程。不确定它是否可以在Hadoop Eco System的其他地方使用。如果有人能提供这方面的信息，我将不胜感激。非常感谢，

0热度

1回答

Hadoop安装问题

使用ubuntu在oracle虚拟机上安装hadoop后，一切正常。但是当我在浏览器上运行localhost：50070时，我得到的是namenode健康状态，但在右下角没有Legacy UI选项，通过它我可以浏览文件系统。任何想法为什么？

1热度

1回答

通过Hadoop Streaming阅读PySpark中的Xml文件

我试图将代码here从Scala版本改编为PySpark版本。下面是我使用的代码： conf = SparkConf().setAppName("Parse Xml File") sc = SparkContext(conf = conf) sqlContext = HiveContext(sc) sc._jsc.hadoopConfiguration().set(

0热度

1回答

物联网设备的分析引擎

我正在为M2M IoT提供商工作。现场有数百万部署的物联网设备。数据由边缘设备聚合并发送到我们的中央服务器。服务器处理设备数据并将处理后的信息发送给各种其他子系统。我们正在概念化分析引擎（AE）与现有系统并行的想法。来自物联网设备的数据应送入此引擎以进行不同类型的分析。示例：监控过去24小时内来自设备的事件，并计算出健康状况或预测其他内容。我们正在试图找出在这方面的下列问题的答案： 1）我们应

-2热度

2回答

在配置单元中传递参数不起作用

在配置单元中传递参数不适用于我。我的代码： hive> set x='test variable'; hive> ${hiveconf:x}; 我得到这个错误： FAILED: Parse Error: line 1:0 cannot recognize input near ''test variable'' '<EOF>' '<EOF>'

4热度

2回答

导入文本文件：否从文件解析列

我想从sys.stdin中获取输入。这是hadoop的地图缩减程序。输入文件是以txt格式。该数据集的预览：我一直在试图 196 242 3 881250949 186 302 3 891717742 22 377 1 878887116 244 51 2 880606923 166 346 1 886397596 298 474 4 884182806 115 265 2 88117