发新帖

有没有数学大神解释一下RNN里梯度消失or爆炸的原因?

[复制链接]
487 4

快来加入 TensorFlowers 大家庭!

您需要 登录 才可以下载或查看,没有帐号?加入社区

x
RT.
Vanilla RNN在反向传播的时候会出现梯度消失or梯度爆炸现象。我看了CS231n但是没有能够理解。有人能详细讲讲吗?

我知道答案 回答被采纳将会获得10 金币 已有4人回答
微信图片_20180416202640.png
本楼点评(0) 收起

精彩评论4

王奇文  TF荚荚  发表于 2018-4-17 09:02:31 来自手机  | 显示全部楼层
本质:0.9^100→0,1.1^100→∞(13780)。因素: ①sigmoid饱和特性②深层结构③反向传播算法。这些因素共同导致梯度消失和爆炸
本楼点评(0) 收起
Googler  TF荚荚  发表于 2018-4-17 09:32:27 | 显示全部楼层
王奇文 发表于 2018-4-17 09:02
本质:0.9^100→0,1.1^100→∞(13780)。因素: ①sigmoid饱和特性②深层结构③反向传播算法。这些因素共同 ...

和CNN相比呢? 难道CNN没有这个问题吗?
本楼点评(0) 收起
王奇文  TF荚荚  发表于 2018-4-17 12:52:07 | 显示全部楼层
Googler 发表于 2018-4-17 09:32
和CNN相比呢? 难道CNN没有这个问题吗?

CNN符合后两者,但是不满足第一个:sigmoid→ReLU,非饱和
本楼点评(0) 收起
zhanys_7  TF荚荚  发表于 2018-7-3 16:31:49 | 显示全部楼层
主要是由于这种递归的形式导致的,推导下公式就会发现有随时间连乘的现象,这样小于1就消失大于1就爆炸
本楼点评(0) 收起
您需要登录后才可以回帖 登录 | 加入社区

本版积分规则

主题

帖子

18

积分
快速回复 返回顶部 返回列表