关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11162人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全球第二,欣旺达,再冲固态电池!

飞鲸投研 浏览 980

官方:乌兹别克斯坦裁判纳贾法列夫将执法海港客战武里南联

懂球帝 浏览 801

丰富个性化选择,吉利银河L7新增“星瀚绿”配色

天天汽车 浏览 12475

小米牵头组建国家级联合体:3C智能制造创新联合体

网易科技报道 浏览 18983

问界销量首超理想 余承东:这只是一个开始

车市红点 浏览 12567

泽连斯基称俄武器来自中国 外交部回应

环球网 浏览 67464

小维阿:马赛的压力不让我意外,我在尤文效力过

懂球帝 浏览 682

谢娜的细纹、林心如的皮肤,明星生图都好真实

不八卦会死星人 浏览 13735

英媒抛出谬论:中国的空气质量改善 加速了全球变暖

环球时报国际 浏览 7048

媒体:俄媒对红场阅兵报道刻意低调 似乎很不寻常

枢密院十号 浏览 18844

面板价格跳水后反弹,电视厂商掀起新一轮涨价,线上线下都不放过

时代财经 浏览 15408

五角大楼泄密文件被曝含涉华内容

金羊网 浏览 18844

秋季开学穿搭大合集 30套标准模板快收藏

巧百搭 浏览 15132

台媒曝美批准3亿美元对台军售 岛内讽:又来提款了

环球网资讯 浏览 13035

刘诗诗分享生日宴会美照,笑容甜美似初恋,鲜花蛋糕簇拥宛如仙境

深剖娱乐圈 浏览 12136

收购两公司 探路者加码芯片业务

北京商报 浏览 247

百亿补贴战:京东急了,拼多多阿里压力大了,线下实体难了

钛媒体APP 浏览 19133

金融业排第二!2022年平均工资出炉,这个行业最高

中国基金报 浏览 18479

1万亿订单再加3500-5000亿美元!OpenAI“停不下来”,“当你欠每家数千亿美元,钱的问题自己会解决”?

华尔街见闻官方 浏览 1061

欧洲经济“火车头”要熄火,德国怎么成了“差等生”?

国是直通车 浏览 16186

任正非称教育不能太实用主义:应该让学生“胡思乱想”

Tech星球 浏览 19379
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1