关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11160人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

成都女子被家暴16次案男方:申请重新鉴定女方伤情

上游新闻 浏览 74561

每体:西甲启动2027-32赛季在西班牙的电视转播权拍卖

懂球帝 浏览 692

萧敬腾晒全家福,50岁林有慧与大16岁婆婆长得像

八卦宝宝 浏览 14638

海川慧富展望2024:A股估值处于历史中低水平 具有较大修复空间

私募荟 浏览 12929

大相径庭,维拉上赛季英超前五轮过后高居第3,本赛季仅第18

直播吧 浏览 1579

存储芯片超级周期来袭!江波龙股价两个月涨超200%!超85亿存货在手

时代周报 浏览 717

秦雯编剧电视剧被央视撤档 此前王家卫秦雯录音惹争议

鲁中晨报 浏览 14287

出境团队游国家扩展至138个,携程出境跟团线路搜索涨超20倍

网易科技报道 浏览 14708

张柏芝仅用一招就让自己口碑暴增?

娱乐圈笔娱君 浏览 786

致敬球队传奇,多特官方商城为球迷免费印11号罗伊斯

懂球帝 浏览 75

北京广告协会:请相关品牌方等对内地男歌手蔡某某做好风险把控

新京报 浏览 15602

美日澳菲频繁军事互动 专家:想在中国周边建包围圈

环球网资讯 浏览 16622

身高1.8米丹麦女王退位 被称为"中国人民的老朋友"

极目新闻 浏览 77999

卸行政职务后郑强重回学术界:以通讯作者身份在国际刊物发文

澎湃新闻 浏览 12639

小鹏将推出长途增程混合动力X9,单次续航1600公里

MOTO 浏览 1751

娱乐圈又爆大瓜,这男星彻底完了

独立鱼 浏览 12793

6.4万star的开源智能体框架重构!OpenHands重大升级,叫板OpenAI

机器之心Pro 浏览 636

斯坦福MLE-Smith:自动生成机器学习竞赛题目

科技行者 浏览 658

人工智能深度调查:用过AI工具的人并没想象那么多

网易科技报道 浏览 15832

李小璐携10岁女儿跳舞 甜馨舞技不输妈

娱絮 浏览 14720

特朗普透露将被抓 分析人士:或极大促进他的竞选活动

新京报外事儿 浏览 104268
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1