关闭广告

Transformer开山论文惊天"翻车"?图与代码不一致,神秘bug看傻了

新智元14753人阅读


新智元报道

编辑:编辑部

【新智元导读】图与代码不一致的论文,很「常见」,不过提出了Transformer的开山鼻祖论文,竟然也出现了同样的错误?

今天,AI圈被一个惊天「翻车」刷屏了。

谷歌大脑的NLP奠基之作、提出Transformer架构的开山鼻祖级论文 《Attention Is All Your Need》 中的图,被网友扒出与代码并不一致。


论文地址:https://arxiv.org/abs/1706.03762

自2017年问世以来,Transformer已经成为AI领域的基石王者。就连大红大紫的ChatGPT真正的幕后大佬也是它。

2019年,谷歌还专门为它申请了专利。


归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer),都起源于这篇17年的论文。

据Google Scholar,截止目前,这篇奠基之作已有7万多次的引用。


所以,ChatGPT的奠基石都不稳了?

作为「开山鼻祖」的论文,结构图竟是错的?

Lightning AI创始人、机器学习研究者Sebastian Raschka发现,这篇论文中Transformer的图是错误的。


图中被圈出的地方,LayerNorms是在注意力和全连接层之后。在残差块之间放置层归一化,会导致输出层附近参数的预期梯度很大。

而且,这也与代码 不一致。



代码地址:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e

不过有网友指出,Noam shazeer在几周后对代码进行了纠正。



随后,Sebastian称,在论文Layer Normalization in the Transformer Architecture中,Pre-LN表现得更好,可以解决梯度问题。


这是很多或者大多数架构在实践中所采用的,但它可能导致表征崩溃。

如果层归一化在注意力和全连接层之前被放置在残差连接之中,就会实现更好的梯度。


Sebastian提出,虽然关于使用Post-LN或Pre-LN的讨论仍在进行中,但也有一篇新论文提议把二者结合起来。



论文地址:https://arxiv.org/abs/2304.14802

在这种双残差Tranformer中,表征崩溃和梯度消失的问题都得到了解决。


网友热议

针对论文中的疑点,有网友指出:中间不是已经有了PreLN和PostLN了吗?

Sebastian回答说,自己也觉得有点奇怪。或许2nd LN指的是最后一个输出层,而不是每个transformer块,但他对此也不确定。


有网友表示:「我们经常遇到与代码或结果不匹配的论文。大多数就是出于错误,但有时也会让人很奇怪。而这篇论文已经流传甚久了,为什么这种问题此前从没被人提出过,这真的很奇怪。」


Sebastian表示,公平地讲,最原始的代码是和图片一致的,但他们在2017年修改了代码版本,却没有更新图片。所以,这很令人困惑。


有网友表示,已经有论文在NormFormer中展示了一个不太复杂的架构,而他的团队最近也证实了他们的结果。而ResiDual论文没有在任何地方提到NormFormer,这让人很惊讶。


同时,评论区不断出现网友证实:Transformers中使用的LN,与CNN中使用的方式并不同。



所以,论文真的存在漏洞,还是乌龙事件?

让我们静观后续。

参考资料:

https://twitter.com/rasbt/status/1655575611979489282

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国裁员潮持续!麦肯锡开启史上最大规模裁员之一,将减少2000个职位

华尔街见闻 浏览 15630

坦克400 Hi4-T首次OTA升级:优化车机统等8项功能

汽车安利会 浏览 8977

牛弹琴:俄正式"官宣"要先退群了 普京明显带着怨气

北京日报客户端 浏览 73760

模仿苹果应用商店,OpenAI正式推出GPT商店

网易科技报道 浏览 8683

黑龙江五常米农:我们害怕暴雨洪水 更害怕绝收谣言

中国新闻周刊 浏览 65943

茅台冰淇淋部分门店暂停营业?知情人士辟谣

澎湃新闻 浏览 7183

北控惜败吉林时隔19天吞连败 费尔德缺席6战4败邹雨宸15分

醉卧浮生 浏览 8987

牛仔裤搭配这4件上衣 时髦又高级

小西的穿搭日记 浏览 15354

还记得《巴啦啦小魔仙》里的黑魔仙吗?现在长这样

橘子娱乐 浏览 12724

华为智选SUV问界M9变相降价,至高5万!跟理想L9打价格战?

网上车市 浏览 8297

普京慰问伤兵称"受过炮火洗礼者将在俄军中任要职"

环球网资讯 浏览 12184

下面哪一种“姿势”是你的入睡姿势呢?

Yuki女人故事 浏览 6895

黄心颖承认结婚:选许志安生日翌日注册 马国明祝福

叶公子 浏览 10794

欧尔班:欧洲进入对俄开战准备阶段 距开火仅几步之遥

上游新闻 浏览 7109

工信部将6GHz频段划分用于5G/6G系统

界面新闻 浏览 12003

美官员谈布林肯访华:并不期待长长的可交付成果清单

环球网资讯 浏览 69818

债务周期下全球股市大底如何形成?

网易财经 浏览 8517

“技术男”科大讯飞的木桶效应

斑马消费 浏览 10814

问界“失去”华为70天

市界 浏览 12642

法国总统马克龙:成为盟友不意味着成为附庸

新京报 浏览 15088

2023年的最新潮流款,准新娘可参考

大维聊时尚 浏览 15893
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1