hadoop-streaming

1热度

1回答

大家好，我正在尝试安装多节点hadoop安装。一切工作正常，但我的yarnmanager没有工作。当我看着为纱节点管理器日志文件，我得到了以下信息 "org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Initialized nodemanager for null: physical-memory=-1 virtual

0热度

1回答

Hadoop MapReduce Shuffle＆Sort：为什么需要'组'操作？

'shuffle'的'组'操作是将数据更改为<key, List <value>>表单，但我的reducer.py无法识别该列表，只是继续将其视为标准输入的一行<key, value>形式。看看下面的代码： for line in sys.stdin: line = line.strip() word, count = line.split('\t', 1) 为何还要这样

1热度

1回答

如何在python中为json文件编写流式mapreduce作业？

如何使用python代码编写Mapper来处理Hadoop中的Json文件。我尝试下面的代码： import json import sys data = json.loads(sys.stdin) 在使用外壳命令cat user_info.json | python mapper.py运行上面的代码，它显示错误： Traceback (most recent call last):

1热度

1回答

使用FLUME将数据存储在Hadoop中

我已经按照教程中的hadoop安装和Flume的所有步骤进行了操作。我在大数据工具中很无聊。我收到以下错误。我不明白，问题在哪里？我也读了很多关于安装的帖子，但我仍然面临这个问题。我的最终目标是使用R执行Twitter情绪分析。 17/09/29 02:25:39 INFO node.PollingPropertiesFileConfigurationProvider: Configurati

0热度

1回答

hadoop-streaming.jar在每行的末尾添加了x'09'

我试图使用下面的hadoop-streaming.jar命令在HDFS位置合并一些* _0（HDFS中的部分文件）文件。 hadoop jar $HDPHOME/hadoop-streaming.jar -Dmapred.reduce.tasks=1 -input $INDIR -output $OUTTMP/${OUTFILE} -mapper cat -reducer cat 事情做工精细

0热度

1回答

是Python和Hadoop的一个很好的选择吗？

我要寻找一个解决方案来构建具有以下特点的应用程序：的-potentially-百万表行的数据库的化合物，可能有一些小的相关。快速单的查询，如“SELECT * FROM表WHERE LIKE字段值％” 将Linux服务器上运行：单个节点，但在未来可能的多个节点。您认为Python和Hadoop是不错的选择吗？我在哪里可以找到一个用Python编写的快速示例来向Hadoop添加/检索信息，以

0热度

1回答

控制Python输出到控制台

我正在使用Hadoop/MapReduce构建电影推荐。现在我只用python来实现MapReduce过程。所以我基本上做的是分别运行每个映射器和减速器，并使用从映射器到减速器的控制台输出。我遇到的问题是python在终端输出值作为字符串，所以如果我用数字处理数字打印为字符串，这使得难以简化过程，因为它的转换增加了更多的服务器负载。那么我该如何解决这个问题，我正在寻找使用纯Python和没

1热度

2回答

将流媒体数据插入配置单元

我的scenerio是在我的项目中，我们从kafka每分钟获得200 msg，并需要使用avro格式存储在配置单元表中。如果我们使用插入脚本或每条消息，我认为插入每条消息需要很长时间。是否有任何想法，对于这种流式数据，我们必须使用哪种方式将其插入配置单元，并且具有良好的性能。感谢您的帮助。

1热度

1回答

如何在Spark流上创建停止条件？

我想使用火花流从HDFS读取数据。我们的想法是，另一个程序会不断上传新文件到HDFS目录，我的spark串流作业将处理这个目录。但是，我也想有一个结束条件。也就是说，程序上传文件到HDFS的方式可以通知Spark流程程序，它会完成所有文件的上传。举个简单的例子，从Here开始。代码如下所示。假设另一个程序正在上传这些文件，那么如何通过该程序（不要求我们按CTRL + C）在火花流程程序中以编程方

-2热度

1回答

如何使用多个分隔符将文件加载到猪？

我有以下文件tax_cal我想在猪加载： 101,5 | 2; 3 | 2 102,3 | 1; 4.5 | 2; 4 | 1 103,2 | 1; 5 | 2; 5.6 | 3 输出： 101,5 | 2,3 | 2 102,3 | 1,4.5 | 2,4 | 1 103,2 | 1,5 | 2,5.6 | 3 此外，我将这个输出文件传递给python UDF来计算总价格。我该如何做到这一点？