distributed-computing

0热度

2回答

我知道Apache Helix允许动态集群扩展/收缩（例如添加/失败/删除物理节点）。但是，如果单个物理节点无法处理单个分区副本，则需要将分区分成两部分。我知道我们需要预先估计工作量，所以我们可以预先设置足够数量的分区。但是，随着流量不可预测地上升，几乎不可能做出这样的预估。任何人都可以告诉我Helix是否支持重新分区开箱即用？如果我需要对其进行定制以添加重新分区功能，那么原理上的努力程度和方法如

1热度

1回答

PBFT中的委员会变更

我正在实施使用实用拜占庭容错的分布式系统。这个方法委托一个委员会为每个提交投票。但是，如果它们全部崩溃或在DDoS攻击下，整个网络将崩溃。我很好奇是否有办法改变整个委员会。这与视图更改不同，因为视图更改只会替换错误的节点，而这需要替换所有委员会成员，从而组成一个充满活力的委员会。

2热度

1回答

如何使dworkers进行多进程？

我正在从事分布式集群计算。要实现这样的系统，我试图使用dask.distriuted的python库。但是存在一个问题，即dworkers不适用于多进程，意味着2个或3个dworkers一起工作，但不支持多处理lib中支持的多个执行。为例： def testFun(): while True: time.sleep(3) print('looping') 如果我在cli

0热度

1回答

Spark作为Mapreduce的存储层

我面临一个独特的问题，并希望您的意见在这里。我有一个传统的map-reduce应用程序，其中多个map-reduce作业按顺序运行，中间数据来回写入HDFS。由于将中间数据写入HDFS，具有小数据的作业将比HDFS的功能获得的收益损失更多，而且花费的时间要远远多于非Hadoop等价物所花费的时间。最终，我计划将我所有的地图缩减工作转换为Spark DAG，但这是一个巨大的改变，所以我相当拖延。

1热度

1回答

有没有办法像MPI_BARRIER那样在tensorflow中做？

当进行分布式异步培训时，需要让所有员工在某个时间等待同步模型参数，例如，一旦时期完成就进行同步，并在验证集上计算出auc。 MPI_BARRIER在使用MPI时足够好，在张量流中是否有类似的东西？

1热度

1回答

tensorflow monitoredsession用法

我有以下代码来执行简单的算术计算。我试图通过使用受监视的培训会话来实现容错。 import tensorflow as tf global_step_tensor = tf.Variable(10, trainable=False, name='global_step') cluster = tf.train.ClusterSpec({"local": ["localhost:2222",

1热度

1回答

如果主从站无法通信会发生什么？

我正在学习动物园管理员的主从模式。我只是有一个问题：如果一个主人和一个奴隶不能互相沟通会发生什么？像主人不能从奴隶得到ACK？奴隶重新启动自己？

0热度

1回答

为什么他们使用两个长WS连接来实现每个用户的聊天室

这是一个聊天室的设计。他们在客户端使用两个长的ws连接。一个是上升的，另一个是下降的？这种设计的好处是什么。该公司具有非常大的并发性。最近，他们分享了他们设计的聊天室。他们可以在同一个房间里处理100,000多个并发。我认为这可能是由于需要使用不同的IDC引起的，上行连接将连接到主数据库位于该IDC的IDC。轻松实现业务逻辑。您的意见是？

1热度

1回答

如何确保客户端代码在多台计算机上运行时的服务调用上限？

假设我有一个API getName（String id）的restful服务X.我的代码被部署到位于负载平衡器后面的5台机器。相同的客户端代码在这些机器上运行，并在某处调用getName（String）api的服务X.该服务已经设置了一个限制，即每秒最多可处理3个呼叫。假设请求的周转时间为200毫秒，我如何确保我的客户端不超过服务器的3 TPS限制？我没有任何机制让我的客户相互沟通。如何避免服务器

2热度

2回答

Zookeeper无法定位hbase伪分布式模式下的主节点

我想以伪分布式模式运行hbase，安装是从头开始的。跟着步 start HBase。启动HBase的主服务器启动区域服务器开始HBase的壳牌执行列表 HBase的正常启动，因此HBase的外壳。当我检查动物园管理员，主人以及地区所有服务器都起来了。对于任何查询hbase shell提示，我得到这个错误。错误 - 无法从ZooKeeper获取主地址; Z序节点的数据== NULL