关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11169人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

沙特媒体询问"中美是否会因台湾爆发战争" 秦刚回应

外交部网站 浏览 18866

相同的3nm工艺:天玑9500要比第五代骁龙8至尊版便宜50%以上!

快科技 浏览 1028

彭小苒的逆袭不止“紫衣杀”

小小敏娱乐 浏览 807

美股三大指数收盘齐创新高,英特尔涨超22%

中新经纬 浏览 1737

比不会打扮更可怕的是"精致土"

时尚搭配师Nicole 浏览 15344

好心载同事却出车祸遭索赔 法院:司机承担60%赔偿责任

极目新闻 浏览 6142

限时换新价11.98万 第三代蓝电E5 PLUS正式上市

网易汽车 浏览 225

记住"碎花裙+短靴"的搭配技巧 远离老气土气

In风尚 浏览 19915

中国海警驱离侵闯黄岩岛近海菲海警船

界面新闻 浏览 12247

特朗普对全世界一视同仁,中美关系未必会更糟

浏览 23023

谢锋:中美做对手还是伙伴 是管总、管根本的问题

环球网资讯 浏览 12691

中方再次致函古特雷斯阐明立场 严正批驳日方无理狡辩

环球网资讯 浏览 15325

中国第一代超模回归了 状态太好!

一条 浏览 16940

物美系第3个IPO来了!阿布扎比、腾讯、联想、招银国际押注

科创板日报 浏览 10977

券商研究所所长加盟百亿私募!

中国基金报 浏览 10878

8年过后再看冯小刚亲选的“芳华三美”

大铁猫娱乐 浏览 798

ACEMAGIC阿迈奇预告M1A PRO+迷你主机,搭载锐龙AI Max+ 395

IT之家 浏览 213

B站将以播放时长取代次数,避免“抖音快手化”

晚点LatePost 浏览 15499

全智贤新剧跌破平台下线,迪士尼2亿投资亏本,业内直言堪称灾难

萌神木木 浏览 1022

媒体:"俄A-50预警机被击落"一事 不排除俄军导弹误伤

环球网资讯 浏览 78756

消费降级2年,大家2025年还会买什么?

黎贝卡的异想世界 浏览 972
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1