distributed-computing

    0热度

    2回答

    我知道Apache Helix允许动态集群扩展/收缩(例如添加/失败/删除物理节点)。但是,如果单个物理节点无法处理单个分区副本,则需要将分区分成两部分。我知道我们需要预先估计工作量,所以我们可以预先设置足够数量的分区。但是,随着流量不可预测地上升,几乎不可能做出这样的预估。任何人都可以告诉我Helix是否支持重新分区开箱即用?如果我需要对其进行定制以添加重新分区功能,那么原理上的努力程度和方法如

    1热度

    1回答

    我正在实施使用实用拜占庭容错的分布式系统。这个方法委托一个委员会为每个提交投票。但是,如果它们全部崩溃或在DDoS攻击下,整个网络将崩溃。我很好奇是否有办法改变整个委员会。这与视图更改不同,因为视图更改只会替换错误的节点,而这需要替换所有委员会成员,从而组成一个充满活力的委员会。

    2热度

    1回答

    我正在从事分布式集群计算。要实现这样的系统,我试图使用dask.distriuted的python库。但是存在一个问题,即dworkers不适用于多进程,意味着2个或3个dworkers一起工作,但不支持多处理lib中支持的多个执行。 为例: def testFun(): while True: time.sleep(3) print('looping') 如果我在cli

    0热度

    1回答

    我面临一个独特的问题,并希望您的意见在这里。 我有一个传统的map-reduce应用程序,其中多个map-reduce作业按顺序运行,中间数据来回写入HDFS。由于将中间数据写入HDFS,具有小数据的作业将比HDFS的功能获得的收益损失更多,而且花费的时间要远远多于非Hadoop等价物所花费的时间。最终,我计划将我所有的地图缩减工作转换为Spark DAG,但这是一个巨大的改变,所以我相当拖延。

    1热度

    1回答

    当进行分布式异步培训时,需要让所有员工在某个时间等待同步模型参数,例如,一旦时期完成就进行同步,并在验证集上计算出auc。 MPI_BARRIER在使用MPI时足够好,在张量流中是否有类似的东西?

    1热度

    1回答

    我有以下代码来执行简单的算术计算。我试图通过使用受监视的培训会话来实现容错。 import tensorflow as tf global_step_tensor = tf.Variable(10, trainable=False, name='global_step') cluster = tf.train.ClusterSpec({"local": ["localhost:2222",

    1热度

    1回答

    我正在学习动物园管理员的主从模式。我只是有一个问题: 如果一个主人和一个奴隶不能互相沟通会发生什么?像主人不能从奴隶得到ACK?奴隶重新启动自己?

    0热度

    1回答

    这是一个聊天室的设计。他们在客户端使用两个长的ws连接。一个是上升的,另一个是下降的? 这种设计的好处是什么。 该公司具有非常大的并发性。最近,他们分享了他们设计的聊天室。他们可以在同一个房间里处理100,000多个并发。 我认为这可能是由于需要使用不同的IDC引起的,上行连接将连接到主数据库位于该IDC的IDC。轻松实现业务逻辑。 您的意见是?

    1热度

    1回答

    假设我有一个API getName(String id)的restful服务X.我的代码被部署到位于负载平衡器后面的5台机器。相同的客户端代码在这些机器上运行,并在某处调用getName(String)api的服务X.该服务已经设置了一个限制,即每秒最多可处理3个呼叫。假设请求的周转时间为200毫秒,我如何确保我的客户端不超过服务器的3 TPS限制?我没有任何机制让我的客户相互沟通。如何避免服务器

    2热度

    2回答

    我想以伪分布式模式运行hbase,安装是从头开始的。 跟着步 start HBase。 启动HBase的主服务器 启动区域服务器 开始HBase的壳牌 执行列表 HBase的正常启动,因此HBase的外壳。 当我检查动物园管理员,主人以及地区所有服务器都起来了。 对于任何查询hbase shell提示,我得到这个错误。 错误 - 无法从ZooKeeper获取主地址; Z序节点的数据== NULL