关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11146人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蔡英文是否会登上太平岛 台议论纷纷

环球网资讯 浏览 12788

微众银行杨强:AI Agent是大模型面向应用端发展的下一阶段

网易科技报道 浏览 10731

娱乐圈明星抠门大赏:转赠二手礼物、分手切肥皂,个个太离谱

不八卦会死星人 浏览 12864

男子夜钓遭枪击 家属:行凶者把猎枪扔河里 警方找7天

扬子晚报 浏览 4829

从“海燕”到“波塞冬” 俄密集官宣捷报有何考量?

极目新闻 浏览 756

霍启刚带老婆与友人聚会,郭晶晶微笑用手比心

盖饭娱乐官方号 浏览 16370

卫冕悬了?瓜帅确认丁丁伤势严重考虑手术,将缺席数月

我爱英超 浏览 15348

赵磊:一个把粉丝当ATM,最后和私生锁死的男人

八卦三缺一 浏览 941

制裁重启 伊朗军方:已准备好应对任何威胁

极目新闻 浏览 1500

遇到家境好的领导是什么体验?

识局 浏览 879

继邓为之后,死丫头扎小人名单再加一人:祝绪丹

八卦三缺一 浏览 13169

靠识别AI一炮而红 GPTZero又在整新活:联合传媒大佬识别假新闻

财联社 浏览 18246

美财长称中国是"不可靠的伙伴" 外交部回应

澎湃新闻 浏览 13776

斯基拉:国米仍想明夏免签塔雷米,计划向他提供3年合同

懂球帝 浏览 13394

A股58家医疗器械企业2023年业绩快报盘点:大潮褪去谁在裸泳?

时代周报 浏览 11201

纳帅:尊重马扎加入阿尔及利亚,但选择国家队应出于自豪感

懂球帝 浏览 662

俄媒:公开演讲5分钟没提普里戈任 普京话里有"潜台词"

上观新闻 浏览 88833

场均14.3分!马拉加球员卡利诺斯基当选本届洲际杯MVP!

直播吧 浏览 1556

烎!烎!烎!直击炮兵分队实弹射击现场

环球网资讯 浏览 17012

双十一特惠5折,双厨狂喜:智本社X财新

智本社 浏览 769

女星微博之夜送礼翻车!三块钱粘毛器被指抠门

萌神木木 浏览 12716
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1