hadoop-streaming

    1热度

    1回答

    大家好,我正在尝试安装多节点hadoop安装。一切工作正常,但我的yarnmanager没有工作。当我看着为纱节点管理器日志文件,我得到了以下信息 "org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Initialized nodemanager for null: physical-memory=-1 virtual

    0热度

    1回答

    'shuffle'的'组'操作是将数据更改为<key, List <value>>表单,但我的reducer.py无法识别该列表,只是继续将其视为标准输入的一行<key, value>形式。 看看下面的代码: for line in sys.stdin: line = line.strip() word, count = line.split('\t', 1) 为何还要这样

    1热度

    1回答

    如何使用python代码编写Mapper来处理Hadoop中的Json文件。 我尝试下面的代码: import json import sys data = json.loads(sys.stdin) 在使用外壳命令cat user_info.json | python mapper.py运行上面的代码,它显示错误: Traceback (most recent call last):

    1热度

    1回答

    我已经按照教程中的hadoop安装和Flume的所有步骤进行了操作。 我在大数据工具中很无聊。我收到以下错误。我不明白,问题在哪里? 我也读了很多关于安装的帖子,但我仍然面临这个问题。我的最终目标是使用R执行Twitter情绪分析。 17/09/29 02:25:39 INFO node.PollingPropertiesFileConfigurationProvider: Configurati

    0热度

    1回答

    我试图使用下面的hadoop-streaming.jar命令在HDFS位置合并一些* _0(HDFS中的部分文件)文件。 hadoop jar $HDPHOME/hadoop-streaming.jar -Dmapred.reduce.tasks=1 -input $INDIR -output $OUTTMP/${OUTFILE} -mapper cat -reducer cat 事情做工精细

    0热度

    1回答

    我要寻找一个解决方案来构建具有以下特点的应用程序: 的-potentially-百万表行的数据库的化合物,可能有一些小的相关。 快速单的查询,如“SELECT * FROM表WHERE LIKE字段值%” 将Linux服务器上运行:单个节点,但在未来可能的多个节点。 您认为Python和Hadoop是不错的选择吗? 我在哪里可以找到一个用Python编写的快速示例来向Hadoop添加/检索信息,以

    0热度

    1回答

    我正在使用Hadoop/MapReduce构建电影推荐。 现在我只用python来实现MapReduce过程。 所以我基本上做的是分别运行每个映射器和减速器,并使用从映射器到减速器的控制台输出。 我遇到的问题是python在终端输出值作为字符串,所以如果我用数字处理数字打印为字符串,这使得难以简化过程,因为它的转换增加了更多的服务器负载。 那么我该如何解决这个问题,我正在寻找使用纯Python和没

    1热度

    2回答

    我的scenerio是 在我的项目中,我们从kafka每分钟获得200 msg,并需要使用avro格式存储在配置单元表中。 如果我们使用插入脚本或每条消息,我认为插入每条消息需要很长时间。 是否有任何想法,对于这种流式数据,我们必须使用哪种方式将其插入配置单元,并且具有良好的性能。 感谢您的帮助。

    1热度

    1回答

    我想使用火花流从HDFS读取数据。我们的想法是,另一个程序会不断上传新文件到HDFS目录,我的spark串流作业将处理这个目录。但是,我也想有一个结束条件。也就是说,程序上传文件到HDFS的方式可以通知Spark流程程序,它会完成所有文件的上传。 举个简单的例子,从Here开始。代码如下所示。假设另一个程序正在上传这些文件,那么如何通过该程序(不要求我们按CTRL + C)在火花流程程序中以编程方

    -2热度

    1回答

    我有以下文件tax_cal我想在猪加载: 101,5 | 2; 3 | 2 102,3 | 1; 4.5 | 2; 4 | 1 103,2 | 1; 5 | 2; 5.6 | 3 输出: 101,5 | 2,3 | 2 102,3 | 1,4.5 | 2,4 | 1 103,2 | 1,5 | 2,5.6 | 3 此外,我将这个输出文件传递给python UDF来计算总价格。 我该如何做到这一点?