bigdata

    0热度

    1回答

    我创建了一个oozie sqoop任务从mysql导入数据到配置单元。我有一个namenode和3个datanodes,它们在namenode上也有hive,oozie和sqoop。 sqoop import coommand已经在namenode上测试了var CLI,但是每次我创建一个oozie sqoop任务时,它也会失败。下面是详细的错误。 2017-08-11 11:27:40,787

    4热度

    1回答

    我在读取spark数据框时发现了这个奇怪的问题。我将数据帧重新分区为50k个分区。但是,当我读取并对数据帧执行计数操作时,发现在使用spark 2.0时,底层rdd只有2143个分区。 所以我去的路径在哪里保存的数据重新分区,发现 hfs -ls /repartitionedData/ | wc -l 50476 所以它创造了50K paritions而保存数据。 然而,随着火花2.0, v

    0热度

    1回答

    GPS时间序列数据在我的项目的GPS数据发送到服务器每隔20二,大多希望在两个用例使用:次 GPS路径之间的两个得到最后的GPS位置,并显示它生活 我最终在“MongoDB for Time Series Data”教程结束模式。 我想在单个文档中保存每小时/每天的数据,但我不知道它对于使用情况2是快速的,例如,如果我必须从文档中获取数据它?是mongodb快得到的?

    0热度

    1回答

    我有一个拥有1亿行用户在线活动的大型数据集。每行包含一个时间戳,用户标识和站点域名。我想将数据集转换为唯一的域和用户标识的矩阵,以便执行一些矩阵操作。唯一域名的数量约为100K,唯一用户数量约为1000万。矩阵非常稀疏。 什么是最好的软件包或使用的技术?我意识到我的问题非常广泛。我正在使用python和Google云端平台,所以我希望解决方案将在这些线上。

    0热度

    1回答

    在druid.io工作期间,我发现位于/druid_dir/var/sv/的日志文件需要千兆字节的空间。 要解决这个问题,我想设置日志级别ERROR 我把common.runtime.properties druid.emitter.logging.logLevel=error 和log4j2.xml: Configuration status="ERROR" 但是.log文件仍然会变大(

    0热度

    1回答

    我已经写了下面的Scala代码来创建拼花文件 scala> case class Person(name:String,age:Int,sex:String) defined class Person scala> val data = Seq(Person("jack",25,"m"),Person("john",26,"m"),Person("anu",27,"f")) data: S

    0热度

    2回答

    我在我的.bashrc文件中为Hcatalog添加了导出语句,最终导致了我的.basrc文件混乱。现在,即使我在我的cmd中打开了bashrc文件并删除了这两个导出语句,但我仍然无法运行任何命令。 我目前的.bashrc文件: > # ~/.bashrc: executed by bash(1) for non-login shells. > # see /usr/share/doc/bas

    1热度

    1回答

    为每个用户创建一个包含多种UUID类型的事件表,我们希望能够将所有这些UUID拼接在一起,以获得单个用户的最高可能定义。 例如: UUID1 | UUID2 1 a 1 a 2 a 2 b 3 c 4 c 有2个用户在这里,第一个与UUID1 = {1,2}和UUID2 = {A,B},第二个与UUID1 = {3,4-

    1热度

    1回答

    说我的一个Keen IO事件属性是布尔值对象:{“is_a”:true,“is_b”:true,“is_c”:false,...}。 我该如何计算每个布尔值设置为true有多少个事件? 即我想要得到的结果,告诉我,在上周出现了:与在is_b是真的 70比赛时,is_a真正 60事件 100事件is_c是真的 有没有办法做到这一点,而不需要为每个is_a/b/c单独调用?

    2热度

    1回答

    说我的情况是这样的: purchase = { items: ["pickle", "turtle", "lexicon"] } 如何计算有多少事件有“泡菜”?