关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11158人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

科技巨头疯狂投资AI基建,芯片厂商吞了云服务企业的利润?

澎湃新闻 浏览 995

媒体:瓦格纳去了白俄罗斯 更戏剧性的一幕发生了

上观新闻 浏览 15490

左宗棠抬棺西征背后有"十八条扁担" 90岁老人寻其后人

极目新闻 浏览 5729

马斯克向推特僵尸帐户发最后通牒 30天内未登陆就被注销

网易科技报道 浏览 18537

76人和步行者有意休赛期追求乔治

OnFire 浏览 12624

林靖恩流落街头原因公开:父亲和她签断绝书

素素娱乐 浏览 13075

西媒:皇马为塞巴略斯提供3年薪水不变续约合同,球员还在思考

直播吧 浏览 18643

宋佳穿黑色丝袜搭配风衣变身街头女王

潮人方法论 浏览 16255

更年轻动感 全新马自达CX-5正式首发亮相

车质网 浏览 774

中际旭创大股东拟高位减持22亿,机构持仓已提前“释压”

第一财经资讯 浏览 1487

极氪右转:为何回归一个吉利?

天天汽车 浏览 811

加入快车道!来无锡“太湖杯”一同奔跑

DeepTech深科技 浏览 16133

西部联体育主管被指控未经许可挪用好友资金,给俱乐部修球场

懂球帝 浏览 877

尤文旧将阿莫鲁索:不能让伊尔迪兹独自承担赢球责任

懂球帝 浏览 1501

奥斯卡大赢家:诺兰首部有原著的电影

商业周刊中文版 浏览 11384

帮助截瘫患者重获运动功能,华山神外脑机接口团队在上海先进事迹报告会分享创新故事

上观新闻 浏览 626

泫雅的衣品真不错 穿紫色裙子时尚又减龄

双鱼爱畅谈 浏览 19286

"不要国王"抗议席卷全美 特朗普发布AI视频回应

看看新闻Knews 浏览 5508

郭碧婷被曝认种菜地,带儿女种菜体验田园生活

柒佰娱 浏览 15252

冬季怎么搭配不臃肿?试试羽绒服+打底裤

Yuki时尚酱 浏览 13359

戈登左脚严重扭伤,魔术多名核心球员遭遇伤病

趣看热点 浏览 25779
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1