关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11154人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

巴铁用中国武器击落阵风后,印度信心崩溃

浏览 5012

宁德时代滴滴携手换电业务 谁会进入“采购名单”?

道哥说车 浏览 12866

京东高管余震继续,刘强东“心腹”闫小兵回归

北京商报 浏览 15740

贵州本地人都不知道的动物园意外走红 仅一位老人看守

封面新闻 浏览 9052

莫斯科官员:今年的红场阅兵 有种我从未见过的紧张

中国新闻周刊 浏览 120737

全智贤花7700万买新豪宅,夫妻名下房产估值超9亿

素素娱乐 浏览 18957

布朗是绿军季后赛头号选择?大将军:塔图姆被包夹 布朗没有

直播吧 浏览 10696

美媒补刀:高市早苗挑衅中国 日本承受不起

澎湃新闻 浏览 11972

泽连斯基:乌克兰与普里戈任飞机坠毁事故无关

界面新闻 浏览 87633

最值得借鉴的40+穿搭!简约还舒适,保暖、时髦两不误

静儿时尚达人 浏览 13420

迪拜大力发展自动驾驶产业

人民网 浏览 1464

县医院院长获刑:曾是业务"一把刀" 甘于被同学"围猎"

红星新闻 浏览 87035

白玉兰奖争议不断!《繁花》三女主报名破坏规则,网友质疑玩特权

萌神木木 浏览 10933

李书福狠不起来

钛媒体APP 浏览 14208

吉利集团旗下车型大全 国产车实力不容小觑

百角城 浏览 11903

长城突发!欧洲总部解散、解雇所有员工

电动知家 浏览 11320

今年秋冬最流行的4件外套,谁穿谁好看

LinkFashion 浏览 800

女子晒短裙和礼物称"高副处长送的" 官方回应

澎湃新闻 浏览 86992

里程碑,克莱三分9中4得到24分,生涯三分命中数升至历史第九

懂球帝 浏览 12948

升级大模型至3.5版本,科大讯飞“秀肌肉”

北京商报 浏览 12683

连续两场地区联赛弃赛后,葡老牌球队博阿维斯塔面临解散风险

懂球帝 浏览 942
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1