bigdata

0热度

1回答

Oozie sqoop任务错误：无法运行程序“配置单元”：错误= 2没有这样的文件或目录

我创建了一个oozie sqoop任务从mysql导入数据到配置单元。我有一个namenode和3个datanodes，它们在namenode上也有hive，oozie和sqoop。 sqoop import coommand已经在namenode上测试了var CLI，但是每次我创建一个oozie sqoop任务时，它也会失败。下面是详细的错误。 2017-08-11 11:27:40,787

4热度

1回答

Spark数据帧丢失分区

我在读取spark数据框时发现了这个奇怪的问题。我将数据帧重新分区为50k个分区。但是，当我读取并对数据帧执行计数操作时，发现在使用spark 2.0时，底层rdd只有2143个分区。所以我去的路径在哪里保存的数据重新分区，发现 hfs -ls /repartitionedData/ | wc -l 50476 所以它创造了50K paritions而保存数据。然而，随着火花2.0， v

0热度

1回答

数据库设计与MongoDB的

GPS时间序列数据在我的项目的GPS数据发送到服务器每隔20二，大多希望在两个用例使用：次 GPS路径之间的两个得到最后的GPS位置，并显示它生活我最终在“MongoDB for Time Series Data”教程结束模式。我想在单个文档中保存每小时/每天的数据，但我不知道它对于使用情况2是快速的，例如，如果我必须从文档中获取数据它？是mongodb快得到的？

0热度

1回答

如何将大型数据集加载到python并执行矩阵操作

我有一个拥有1亿行用户在线活动的大型数据集。每行包含一个时间戳，用户标识和站点域名。我想将数据集转换为唯一的域和用户标识的矩阵，以便执行一些矩阵操作。唯一域名的数量约为100K，唯一用户数量约为1000万。矩阵非常稀疏。什么是最好的软件包或使用的技术？我意识到我的问题非常广泛。我正在使用python和Google云端平台，所以我希望解决方案将在这些线上。

0热度

1回答

Druid.io（暗示）：日志级别设置

在druid.io工作期间，我发现位于/druid_dir/var/sv/的日志文件需要千兆字节的空间。要解决这个问题，我想设置日志级别ERROR 我把common.runtime.properties druid.emitter.logging.logLevel=error 和log4j2.xml： Configuration status="ERROR" 但是.log文件仍然会变大（

0热度

1回答

无法从拼花文件加载数据蜂巢外部表

我已经写了下面的Scala代码来创建拼花文件 scala> case class Person(name:String,age:Int,sex:String) defined class Person scala> val data = Seq(Person("jack",25,"m"),Person("john",26,"m"),Person("anu",27,"f")) data: S

0热度

2回答

在ubuntu编辑bashrc文件后命令不工作

我在我的.bashrc文件中为Hcatalog添加了导出语句，最终导致了我的.basrc文件混乱。现在，即使我在我的cmd中打开了bashrc文件并删除了这两个导出语句，但我仍然无法运行任何命令。我目前的.bashrc文件： > # ~/.bashrc: executed by bash(1) for non-login shells. > # see /usr/share/doc/bas

1热度

1回答

在红移中查找具有多个UUID标识符的唯一实体

为每个用户创建一个包含多种UUID类型的事件表，我们希望能够将所有这些UUID拼接在一起，以获得单个用户的最高可能定义。例如： UUID1 | UUID2 1 a 1 a 2 a 2 b 3 c 4 c 有2个用户在这里，第一个与UUID1 = {1,2}和UUID2 = {A，B}，第二个与UUID1 = {3,4-

1热度

1回答

如何使用Keen IO中的多个布尔变量来计数事件？

说我的一个Keen IO事件属性是布尔值对象：{“is_a”：true，“is_b”：true，“is_c”：false，...}。我该如何计算每个布尔值设置为true有多少个事件？即我想要得到的结果，告诉我，在上周出现了：与在is_b是真的 70比赛时，is_a真正 60事件 100事件is_c是真的有没有办法做到这一点，而不需要为每个is_a/b/c单独调用？

2热度

1回答

我如何计算在Keen IO中有多少事件存在某个列表项目？

说我的情况是这样的： purchase = { items: ["pickle", "turtle", "lexicon"] } 如何计算有多少事件有“泡菜”？