关闭广告

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

量子位11151人阅读

彩云科技团队投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力，让小模型能打两倍大的模型！

ICML 2024高分论文，彩云科技团队构建DCFormer框架，替换Transformer核心组件多头注意力模块（MHA），提出可动态组合的多头注意力（DCMHA）。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定，让它们可以根据输入动态组合，从根本上提升了模型的表达能力。

可以近似理解为，原来每层有固定的H个注意力头，现在用几乎同样的参数量和算力，可按需动态组合出多至HxH个注意力头。

DCMHA即插即用，可在任何Transformer架构中替换MHA，得到通用、高效和可扩展的新架构DCFormer。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

埃弗顿vs富勒姆：格拉利什、皮克福德首发，劳尔-希门尼斯、莱诺出战

懂球帝浏览 701

以军频袭黎巴嫩南部黎总统斥责

新华社浏览 703

吉利缤越L Battle版上市售价9.78万元

车质网浏览 568

国内车市再掀＂降价潮＂厂商无奈：为了活下去没办法

每日经济新闻浏览 88040

泽连斯基：与美国的谈判并不容易

新华社浏览 80

小伙雕刻＂全球首个汽车石窟＂曾雕＂奥特曼＂石窟引争议

封面新闻浏览 6626

秦昊带9岁女游国外，米饭百元自叹国内物价廉

松林侃世界浏览 948

是什么使唐朝科举开始走向颠峰的政策？

趣看热点浏览 26519

14岁王诗龄拍写真尽显壕气穿12万裙子披波浪卷发

萌神木木浏览 12838

推广|| 每天10分钟状态真的回来了，双11这笔投资好值

黎贝卡的异想世界浏览 979

百亿补贴战：京东急了，拼多多阿里压力大了，线下实体难了

钛媒体APP 浏览 19122

山西10岁男童遇害继父曾冲镜头痛哭喊话＂要找到娃＂

上观新闻浏览 95238

国家统计局城市司高级统计师沈赟解读2023年12月份商品住宅销售价格变动情况统计数据

国家统计局浏览 12879

PPE平台打造首台预批量生产奥迪Q6 e-tron下线

网易汽车浏览 12437

AI暖“冻”——商汤AI智能看护系统再升级，送暖渐冻人群

数据猿DataYuan 浏览 10977

科隆vs汉堡：卡明斯基、侯赛因巴希奇首发，法比奥-维埃拉、洛孔加出战

懂球帝浏览 719

国羽3冠收官！石宇奇2-0横扫泰国世界冠军夺法国赛男单冠军

醉卧浮生浏览 11977

牛弹琴：中国的强烈愤怒还在继续日本有三个没想到

北京日报客户端浏览 41326

还有反转？上周五“精准做空”引发全市场关注，神秘交易员再度开出1.6亿美元空单

华尔街见闻官方浏览 1045

汪小菲又幸福了！和马筱梅搂腰拥抱好缠绵

疯说时尚浏览 910

涉及核武触碰反击条款俄战略预警雷达遭袭引多方焦虑

环球网资讯浏览 11117

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

西蒙尼获第6...

广东U20 ...

国家统计局：...

比亚迪的智能...

跨境网赌大佬...

马斯克向推特...

你们猜谁会迷失在电动浪潮中？

《少年的你》真的是好沉重的一部电影，压抑了一整场

具俊晔穿老年袜骑自行车耍酷头盔上的数字表白大S

埃弗顿vs富勒姆：格拉利什、皮克福德首发，劳尔-希门尼斯、莱诺出战

以军频袭黎巴嫩南部黎总统斥责

吉利缤越L Battle版上市售价9.78万元

国内车市再掀＂降价潮＂厂商无奈：为了活下去没办法

泽连斯基：与美国的谈判并不容易

小伙雕刻＂全球首个汽车石窟＂曾雕＂奥特曼＂石窟引争议

秦昊带9岁女游国外，米饭百元自叹国内物价廉

是什么使唐朝科举开始走向颠峰的政策？

14岁王诗龄拍写真尽显壕气穿12万裙子披波浪卷发

推广|| 每天10分钟状态真的回来了，双11这笔投资好值

百亿补贴战：京东急了，拼多多阿里压力大了，线下实体难了

山西10岁男童遇害继父曾冲镜头痛哭喊话＂要找到娃＂

国家统计局城市司高级统计师沈赟解读2023年12月份商品住宅销售价格变动情况统计数据

PPE平台打造首台预批量生产奥迪Q6 e-tron下线

AI暖“冻”——商汤AI智能看护系统再升级，送暖渐冻人群

科隆vs汉堡：卡明斯基、侯赛因巴希奇首发，法比奥-维埃拉、洛孔加出战

国羽3冠收官！石宇奇2-0横扫泰国世界冠军夺法国赛男单冠军

牛弹琴：中国的强烈愤怒还在继续日本有三个没想到

还有反转？上周五“精准做空”引发全市场关注，神秘交易员再度开出1.6亿美元空单

汪小菲又幸福了！和马筱梅搂腰拥抱好缠绵

涉及核武触碰反击条款俄战略预警雷达遭袭引多方焦虑

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

西蒙尼获第6...

广东U20 ...

国家统计局：...

比亚迪的智能...

跨境网赌大佬...

马斯克向推特...

你们猜谁会迷失在电动浪潮中？

《少年的你》真的是好沉重的一部电影，压抑了一整场

具俊晔穿老年袜骑自行车耍酷 头盔上的数字表白大S

埃弗顿vs富勒姆：格拉利什、皮克福德首发，劳尔-希门尼斯、莱诺出战

以军频袭黎巴嫩南部 黎总统斥责

吉利缤越L Battle版上市 售价9.78万元

国内车市再掀＂降价潮＂ 厂商无奈：为了活下去没办法

泽连斯基：与美国的谈判并不容易

小伙雕刻＂全球首个汽车石窟＂ 曾雕＂奥特曼＂石窟引争议

秦昊带9岁女游国外，米饭百元自叹国内物价廉

是什么使唐朝科举开始走向颠峰的政策？

14岁王诗龄拍写真尽显壕气 穿12万裙子披波浪卷发

推广|| 每天10分钟状态真的回来了，双11这笔投资好值

百亿补贴战：京东急了，拼多多阿里压力大了，线下实体难了

山西10岁男童遇害 继父曾冲镜头痛哭喊话＂要找到娃＂

国家统计局城市司高级统计师沈赟解读2023年12月份 商品住宅销售价格变动情况统计数据

PPE平台打造 首台预批量生产奥迪Q6 e-tron下线

AI暖“冻”——商汤AI智能看护系统再升级，送暖渐冻人群

科隆vs汉堡：卡明斯基、侯赛因巴希奇首发，法比奥-维埃拉、洛孔加出战

国羽3冠收官！石宇奇2-0横扫泰国世界冠军 夺法国赛男单冠军

牛弹琴：中国的强烈愤怒还在继续 日本有三个没想到

还有反转？上周五“精准做空”引发全市场关注，神秘交易员再度开出1.6亿美元空单

汪小菲又幸福了！和马筱梅搂腰拥抱好缠绵

涉及核武触碰反击条款 俄战略预警雷达遭袭引多方焦虑

具俊晔穿老年袜骑自行车耍酷头盔上的数字表白大S

以军频袭黎巴嫩南部黎总统斥责

吉利缤越L Battle版上市售价9.78万元

国内车市再掀＂降价潮＂厂商无奈：为了活下去没办法

小伙雕刻＂全球首个汽车石窟＂曾雕＂奥特曼＂石窟引争议

14岁王诗龄拍写真尽显壕气穿12万裙子披波浪卷发

山西10岁男童遇害继父曾冲镜头痛哭喊话＂要找到娃＂

国家统计局城市司高级统计师沈赟解读2023年12月份商品住宅销售价格变动情况统计数据

PPE平台打造首台预批量生产奥迪Q6 e-tron下线

国羽3冠收官！石宇奇2-0横扫泰国世界冠军夺法国赛男单冠军

牛弹琴：中国的强烈愤怒还在继续日本有三个没想到

涉及核武触碰反击条款俄战略预警雷达遭袭引多方焦虑