distributed-computing

    1热度

    2回答

    我使用的是运行时版本2.11和Flink Core 1.1.2的旧版本Apache Flink。由于与其他库的兼容性问题,我无法将其升级到较新的Apache Flink。我试图禁用运行时的节点日志记录,以尽量减少执行时间。我试着用下面的代码,但消息显示nethertheless: Log4jLoggerAdapter logger = (Log4jLoggerAdapter)LoggerFacto

    1热度

    1回答

    我正在查看Graph Engine(不要与MSFT AD Graph混淆),但我对分布式“fanout search”有疑问。 从我可以告诉 对象保存在跨N台服务器分布式的方式。 N台服务器的这种分配不能在运行时改变 基于某些配置设置,也可以是“只读” 没有“认证”的节点之间,就命令这是完全信任有效。 我感到困惑 以什么方式是数据分片/跨节点划分? 在写入过程中可能成为瓶颈的“全局锁”有多大侵入性

    2热度

    1回答

    我很想了解Spark如何实现容错。在他们的paper中,他们描述了他们如何为像地图这样相当简单的“狭义依赖性”做到这一点。但是,如果一个节点在像排序操作这样的广泛依赖之后崩溃,他们不会说明他们做了什么。我能找到的唯一的事情是这样的: 相比之下,具有广泛的依赖关系的谱系图,一个失败的节点可能会导致某些分区的损失从RDD的所有祖先,需要一个完整的重执行。 这对于理解发生的事情并不足够。 排序后,没有办

    5热度

    1回答

    我已经在群集上启动并运行了dask,但似乎无法访问诊断网页。着陆页是可见的,见下图: 但是所有的链接只是挂永不加载页面。 调度开始细跟这样的输出: [[email protected] ~]$ dask-scheduler --scheduler-file dask-scheduler.json distributed.scheduler - INFO - -------------------

    0热度

    1回答

    我刚刚完成了一个数据库课程,深入到数据库的内部。我试图将我们在课程中学到的所有术语连接起来,但我感觉我缺少一些片段。这里是我所知道的: 数据库:数据结构的“逻辑”表示 - 可互换地用来指物理数据,关系案例中的“表格”数据和DBMS。 数据库管理系统(DBMS):为管理员/用户提供开发加速访问等机制的工具。系统理解数据的统计信息,并可执行查询优化以开发良好的执行路径。例如:PostgreSql,My

    1热度

    3回答

    你好我经常需要在我的代码中使用groupByKey,但我知道这是一个非常繁重的操作。由于我正在努力提高性能,我想知道我的方法是否有效地移除所有groupByKey调用。 我被用来创建从另一个RDD的RDD和创建对类型(INT,INT) rdd1 = [(1, 2), (1, 3), (2 , 3), (2, 4), (3, 5)] ,因为我需要获得这样的事情: [(1, [2, 3]), (2 ,

    1热度

    2回答

    我想让我的Spark程序执行速度有时间,但由于懒惰,这是相当困难的。让我们考虑到这里本(意义)代码: var graph = GraphLoader.edgeListFile(context, args(0)) val graph_degs = graph.outerJoinVertices(graph.degrees).triplets.cache /* I'd need to start

    0热度

    2回答

    我正在阅读关于八卦式失败检测的内容。 在我正在读它的Notes的指出:a single heartbeat takes O(log(N)) time to propagate但这一说法没有解释 任何想法,这是为什么?

    1热度

    1回答

    我目前在一家公司的大数据团队工作,我需要从Dynamo数据库导出数据到亚马逊s3,当导出数据和使用火花查询提取的半结构化JSON时,需要40分钟才能进行即席查询与全表扫描。我阅读了关于apache操作及其对非结构化数据进行秒查询的能力,是否应该继续使用apache操作或对json进行扁平化并将其存储为配置单元ORC表(一万个列)?换句话说,我需要进行查询而无需进行全表扫描。

    1热度

    1回答

    我是新来的并行计算,我无法理解PBS系统的使用。我已成功安装SLURM并设置处理节点。但无法理解我如何在多个节点之间分配任务。 有很多简单的例子,但他们只是运行简单的“Hello World”程序,这就是全部。 考虑下面的例子,我在网上找到了。 #!/bin/bash #SBATCH -N 4 #SBATCH -c 1 #SBATCH --time=0-00:15:00 # 30 minu