partitioning

    -1热度

    1回答

    我正在使用PySpark,并且正在寻找一种将RDD划分为n个公平部分的方法。鉴于: rdd = sc.parallelize ([(u'28b195c271f', (u'm', u'50c41480')), (u'_guid_UDeL9', (u'f', u'K0r_MuQH')), (u'17503716353', (u'f', u'KUDRwaYm'))

    0热度

    1回答

    当运行一个随机森林时,它将不允许在一个变量中超过32个层次,因为它导致了2^n个数据组合/分区。我想它会遵循n!/ k!(n-k)的经典组合方程!为n选择k。任何人都可以解释为什么这是?例如,如果我在一个变量中有4个级别,它将划分为2^4 = 16,我会怀疑它应该是16/4 = 4。 我怀疑这是由于组成较大的随机森林的决策树内进行的递归分区。

    3热度

    1回答

    我需要在分区表中实现更新(通过ON CONFLICT())行。 到目前为止,我的尝试: 创建表: CREATE TABLE public.my_tbl ( goid character varying(255) NOT NULL, timestamps timestamp without time zone[], somenumber numeric[],

    0热度

    1回答

    即使在遵循Victor Jabor blog非常全面的示例之后,我仍无法获得此工作。我在他描述和使用所有最新的依赖关系时遵循了他的配置。我,正如维克多试图从一个数据库读取并写入另一个数据库。我有这个工作没有分区,但需要分区来提高性能,因为我需要能够在5分钟内读取5到1000万行。 下面似乎工作: 1)ColumnRangePartitioner 2)TaskExecutorPartitionHan

    0热度

    1回答

    我们的系统中有实时数据库和档案数据库。来自实时数据库的日常数据被移入归档数据库。我们每天生成大约200万个数据到不同的表格中。 由于我们需要保留数据10年,我们创建了另一个用于存档目的的Oracle数据库,并使用批处理过程在每个午夜推送数据。 由于数据快速增长,我们关心的是将数据存储在归档数据库的表中。由于我们没有Oracle分区许可证,我们已经为每个月创建了10年的表格(共120个表格)。 我们

    0热度

    1回答

    我试图将Teradata中的查询转换为HIVE QL(HDF),并且一直在努力寻找示例。 Teradata(我的功能性最终目标) - 希望计算表中的记录数,然后针对每个growth_type_id值,最终得到每个组的%。 select trim(growth_type_id) AS VAL, COUNT(1) AS cnt, SUM(cnt) over() as GRP_CNT,CNT/(GRP

    0热度

    2回答

    我需要明智地分区表日期,然后这个分区需要通过用户ID进行子分区。 我分区表如下图所示: ALTER TABLE sentbox1 PARTITION BY RANGE(to_days(CreatedDateTime))( PARTITION p20161130 VALUES LESS THAN (to_days('2016-11-30')), PARTITION p20161201 VALUES

    0热度

    2回答

    我有一个日期时间表,事实表和分区表。目标是将date_time连接到事实并插入到分区表中。它正在工作,因为我可以验证/apps/hive/warehouse/dbname.db/p_tbl/p_year=2016/p_month=01/p_day=01以及几个其他年,月,日文件夹存在。不过,我也有p_year=__HIVE_DEFAULT_PARTITION__/p_month=__HIVE_DE

    0热度

    2回答

    我有大约300个位于不同分区的表,现在这些表没有用于如此庞大的数据。现在,我得到空间问题时间,一些有价值的空间被为这些表创建的150个文件组占据,所以我想将表的文件组更改为任何一个而不是150 FG,并通过删除这些文件组来释放空间。这些表格现在不包含任何数据,但定义了许多约束和索引。 能否请您提出建议,如何有效完成?

    0热度

    1回答

    我有一个用Spring-boot编写的应用程序,我们已经完成了查询的优化。我们正在考虑基于日期的数据库(Oracle数据库)分区。我们是否需要在Spring引导应用程序中进行任何更改,或者Oracle会自动处理事情。