关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11151人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

埃弗顿vs富勒姆:格拉利什、皮克福德首发,劳尔-希门尼斯、莱诺出战

懂球帝 浏览 701

以军频袭黎巴嫩南部 黎总统斥责

新华社 浏览 703

吉利缤越L Battle版上市 售价9.78万元

车质网 浏览 568

国内车市再掀"降价潮" 厂商无奈:为了活下去没办法

每日经济新闻 浏览 88040

泽连斯基:与美国的谈判并不容易

新华社 浏览 80

小伙雕刻"全球首个汽车石窟" 曾雕"奥特曼"石窟引争议

封面新闻 浏览 6626

秦昊带9岁女游国外,米饭百元自叹国内物价廉

松林侃世界 浏览 948

是什么使唐朝科举开始走向颠峰的政策?

趣看热点 浏览 26519

14岁王诗龄拍写真尽显壕气 穿12万裙子披波浪卷发

萌神木木 浏览 12838

推广|| 每天10分钟状态真的回来了,双11这笔投资好值

黎贝卡的异想世界 浏览 979

百亿补贴战:京东急了,拼多多阿里压力大了,线下实体难了

钛媒体APP 浏览 19122

山西10岁男童遇害 继父曾冲镜头痛哭喊话"要找到娃"

上观新闻 浏览 95238

国家统计局城市司高级统计师沈赟解读2023年12月份 商品住宅销售价格变动情况统计数据

国家统计局 浏览 12879

PPE平台打造 首台预批量生产奥迪Q6 e-tron下线

网易汽车 浏览 12437

AI暖“冻”——商汤AI智能看护系统再升级,送暖渐冻人群

数据猿DataYuan 浏览 10977

科隆vs汉堡:卡明斯基、侯赛因巴希奇首发,法比奥-维埃拉、洛孔加出战

懂球帝 浏览 719

国羽3冠收官!石宇奇2-0横扫泰国世界冠军 夺法国赛男单冠军

醉卧浮生 浏览 11977

牛弹琴:中国的强烈愤怒还在继续 日本有三个没想到

北京日报客户端 浏览 41326

还有反转?上周五“精准做空”引发全市场关注,神秘交易员再度开出1.6亿美元空单

华尔街见闻官方 浏览 1045

汪小菲又幸福了!和马筱梅搂腰拥抱好缠绵

疯说时尚 浏览 910

涉及核武触碰反击条款 俄战略预警雷达遭袭引多方焦虑

环球网资讯 浏览 11117
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1