发新帖

分布式计算中个别worker假死

[复制链接]
367 5

快来加入 TensorFlowers 大家庭!

您需要 登录 才可以下载或查看,没有帐号?加入社区

x
分布式训练中个别worker假死后,整个集群不能退出
我知道答案 回答被采纳将会获得10 金币 已有5人回答
本楼点评(0) 收起

精彩评论5

舟3332  TF芽芽  发表于 2018-4-16 20:20:41 | 显示全部楼层
可以定期做 checkpoint 一旦发生这种情况就去恢复
本楼点评(0) 收起
ViolinSolo  TF芽芽  发表于 2018-7-3 20:08:29 | 显示全部楼层
其实你如果做了ckp就无所谓,,坏掉了就直接杀进程
本楼点评(0) 收起
ViolinSolo  TF芽芽  发表于 2018-7-3 20:09:51 | 显示全部楼层
或者你用哪些自动管理进程的框架哈哈,docker的那些框架
本楼点评(0) 收起
neverchange  TF豆豆  发表于 2018-7-3 23:36:36 | 显示全部楼层
是hadoop里还是哪里的?
本楼点评(0) 收起
jka  TF荚荚  发表于 2018-7-4 11:19:44 | 显示全部楼层
受教了
本楼点评(0) 收起
您需要登录后才可以回帖 登录 | 加入社区

本版积分规则

主题

帖子

3

积分
快速回复 返回顶部 返回列表