hadoop-streaming

    1热度

    1回答

    我必须通过配置单元查询将当前日期(时间戳)插入表中。由于某种原因查询失败。有人能帮助我吗? CREATE EXTERNAL TABLE IF NOT EXISTS dataFlagTest( date string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION 's3://bckt1

    4热度

    2回答

    了解DataTorrent我应该在DataTorrent,寻找文章/文档工作经历。我不能什么是运营商,他们如何用于处理我们的数据和有关它在运营商正在使用MALHAR库(不知道这部分)找到详细的文档。有人可以帮我理解关于DataTorrent的建议吗?

    0热度

    1回答

    我正在使用Hadoop流式传输作业。 我的映射器是用bash编写的。它使用job_id。 mapred_job_id=`echo "$mapred_job_id" | awk -F "_" '{print $NF}'` 它工作正常(空空的debuggin目的的愚蠢wordcound映射器操作),直到我有以下行,使作业崩溃: mapred_job_id=`expr $mapred_job_id

    0热度

    1回答

    队 好奇,想知道是否有人成功地在Twitter的Cloudera的实例执行查询? 我在Beewax文件资源中添加了SerDe Jar作为Jar,我仍然得到任何查询的错误。 查询: SELECT t.retweeted_screen_name, sum(retweets) AS total_retweets, count(*) AS tweet_count FROM (SELECT ret

    0热度

    1回答

    我正在尝试执行HDInsight的作业。 以下是获取证书代码,其在 X509Certificate2 cert= store.Certificates.Cast<X509Certificate2>().First(item => item.FriendlyName == certFriendlyName);" // Get the certificate object from certifi

    0热度

    2回答

    我的问题是相似的:hadoop streaming: how to see application logs? (在答案的链接目前不工作,所以我必须用一个额外的问题,再重新发布) 我可以看到我的/ usr /本地所有Hadoop日志/ Hadoop的/日志路径 ,但我在哪里可以看到应用程序级别的日志?例如: reducer.py - import logging .... logging.ba

    4热度

    1回答

    我有一个hadoop集群,我正在使用Numpy,SciPy和Pandas进行数据分析。我希望能够使用'--file'参数将命令作为zip/tar文件提交给我的hadoop作业。这个zip文件应该有一切,我的python程序需要执行,无论我的脚本在集群上执行什么节点,我都不会在运行时遇到ImportError。 由于公司政策,在每个节点上安装这些库不是完全可行的,尤其是对于探索性/敏捷开发。虽然我已

    0热度

    1回答

    我刚开始学习Hadoop。我试图将流式接口与处理文件的Python脚本一起使用:对于每个输入文件,我都会创建一个输出文件并提供关于它的一些信息,所以这是一个没有缩减器的映射作业。我发现的是,文件正在一次处理一个,这不是我想要的。 我会解释我所做的事情,但之后我还会发布一些代码以防万一我在那里丢失了某些东西。 我有一个输入格式和记录阅读器,它读取整个文件并将其内容用作值和文件名作为键。 (这些文件并

    0热度

    1回答

    我有一个要求,开发一个中间层应用程序来从HDFS存储库获取请求的文件。这很容易。但是,我正在考虑如何缓存这些请求的文件以进一步请求,以防止HDFS一次又一次地查询该文件。 为此,我应该使用什么样的最佳缓存选项? 请注意,这些文件的大小非常大。 (近GB)

    2热度

    1回答

    我已经下载了(因为我没有空间运行CDH或沙箱)的Hadoop 2.6.0和Hadoop从here 流,我跑的 bin/hadoop jar contrib/hadoop-streaming-2.6.0.jar \ -file ${HADOOP_HOME}/py_mapred/mapper.py -mapper ${HADOOP_HOME}/py_mapred/mapper.py \ -file