关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11153人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国务卿称以军暂停加沙攻势被当场“打脸”

环球网资讯 浏览 995

因未能有效打击谣言,欧盟宣布对马斯克X提起诉讼

IT之家 浏览 12914

还记得"欢喜哥"许绍雄吗?嫁女现场堪比TVB台庆!

橘子娱乐 浏览 13343

尼日利亚两大极端组织火并不断 数百人恐丧命

环球网资讯 浏览 19013

东方甄选的困局,还得靠字节跳动给解药

连线Insight 浏览 12852

标配华为乾崑智驾 深蓝S07售15.69万起

网易汽车 浏览 1587

官方:麦克托米奈当选2025意大利足球盛典年度最佳球员

懂球帝 浏览 301

以色列总理称将召集内阁批准停火协议

央视新闻客户端 浏览 1013

业绩碾压预期,英伟达净利激增8倍,AI芯片还要大扩产

澎湃新闻 浏览 14138

出轨、送女友进大牢,退圈四年后霍尊再度复出

除夕烟火灿烂 浏览 70

乌克兰:已在克里米亚登陆实施特别军事行动

财联社 浏览 88121

阿邦拉霍:安东尼在球场上有点愚蠢,他应为自己的表现感到沮丧

直播吧 浏览 18642

胡塞武装称又击落1架美军“死神”无人机 现场披露

环球网资讯 浏览 11018

众多UP主吐槽陈凯歌被举报,对人身攻击零容忍

趣看热点 浏览 25460

台积电之后 韩国芯片工厂也关停光刻机了:仅一半产线运转

快科技 浏览 14195

伊朗警告美英停止袭击也门胡塞武装

环球网资讯 浏览 12725

美军方拦截"不明高空气球" 美媒硬扯中美"气球事件"

环球网资讯 浏览 12396

媒体:理想合并零售与交付两大部门 全力卖车

网易财经 浏览 11089

冯巩当选中国曲艺家协会主席!姜昆连任10年卸任

盖饭娱乐官方号 浏览 18820

媒体:拜登说漏了?美国有毁灭台湾计划?

环球网资讯 浏览 19139

更上一层楼的德系质感 大众ID.7上市 22.7777万起

吴佩频道 浏览 12940
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1