第234章恒等映射求订阅求月票（第4页）

天才一秒记住【热天中文网】地址：https://www.rtzw.net

“大家都说我在做无用功，说与其花钱搞数据，不如多优化一下算子。”

“那是他们错了。”

林允宁转过头，看着李飞飞的眼睛，语气出人意料地笃定，“数据是新时代的石油。

在这个算力即将爆炸的前夜，谁掌握了最大的数据集，谁就掌握了定义下一代智能的权力。

“李教授，你现在的问题不是石油太多，而是提炼石油的引擎??也就是神经网络的架构，还不够强，我说的对么?”

李飞飞愣了一下。

她没想到这个搞理论物理出身的天才，竟然比很多计算机同行更懂数据的价值。

“你说得对。”

这位普林斯顿的助理教授叹了口气，“这也是我最头疼的。

数据量上去了，可是模型跟不上。

无论是SVM还是浅层神经网络，一旦喂进去海量数据，误差率不仅不降，反而居高不下。

我在想是不是哪里出了问题。”

“找个地方聊聊?”

林允宁指了指旁边的咖啡座，“我最近有些新想法，也许你会感兴趣。”

咖啡座里，人声嘈杂。

两人找了个角落坐下。

“现在的网络有个悖论。”

李飞飞拿出一张图表，上面画着两条曲线，“理论上，网络层数越深，表达能力越强。

但实际上，当我们把层数从20层增加到50层时，训练误差反而变大了。

这不科学，这叫‘退化问题”

DegradationProblem。”

“因为信息在传递过程中失真了，我最近有一个新的想法，我称之为“残差神经网络’，正好想听听你的意见。”

林允宁手指轻轻敲击着桌面，淡淡说道。

他没带电脑，于是随手从桌上的纸巾盒里抽出一张餐巾纸，掏出随身带的圆珠笔，在纸上画了一个示意图:

“李教授，想象一下传话游戏。

如果你想把一句话传给第100个人，中间每过一个人，信息就会因为‘非线性”

的理解而扭曲一点。

到了最后，话全变了。”

他在纸上画了一个方框，代表卷积层。

“现在的做法是强迫网络去学习从X到Y的完整映射Fx。

这很难。”

林允宁在方框旁边，画了一条弯曲的弧线，直接把输入X连到了输出端。

在那条弧线上，他重重地画了一个加号:+。

Hx=Fx+X

“我们给它修一条直通车。”

林允宁指着那个简单的公式，“这就是‘残差块’ResidualBlock。

“我们不再让网络去学习完整的输出Hx，而是让它只学习“变化量’????也就是残差Fx=x-x。

“如果这一层不需要做什么改变，网络只需要把Fx置为0，那么输出就自动等于输入x恒等映射。

“这样一来，梯度就可以顺着这条高速公路，毫无损耗地传回前面的层。

别说50层，就是100层、1000层，也能训练。”

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第234章 恒等映射求订阅求月票（第4页）