关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者605人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

支付“适”外:打通支付堵点,让老外有钱花得不出去

经济观察报 浏览 12656

失去杨幂!嘉行一年内走4位大咖 新东家实力各不同

叶公子 浏览 18812

OpenAI与博通达成数十亿美元芯片开发协议

国际金融报 浏览 1004

陈晓陈妍希久违公开互动 夫妻俩追剧玩剧透太甜蜜

网易娱乐 浏览 19884

特斯拉将在明年1月提高内华达超级工厂部分工人时薪

界面新闻 浏览 12686

✔️✔️联手C罗!多家沙特媒体证实利雅得胜利成功签B罗

直播吧 浏览 15477

东晋的开国皇帝和灭国皇帝各是谁?东晋为何走向灭亡

趣看热点 浏览 26037

星光大赏红毯生图来了!热巴妆容翻车杨紫选错礼服

萌神木木 浏览 12860

乌克兰总统泽连斯基视察扎波罗热地区

环球网资讯 浏览 14513

华为智选车模式胜出?背后赢家浮现

格隆汇 浏览 19332

看完这张照片,终于读懂了巩俐的美

潮人方法论 浏览 16696

队报:内马尔并非不顾一切想要离开,他对恩里克的执教表示欢迎

直播吧 浏览 15373

为什么不建议买理想MEGA的大象灰版本?不是花一万块,而是安全性

车有梗 浏览 12108

微软阿里遥遥领先!中美云巨头狂投1600亿,争做大模型最强金主

智东西 浏览 11625

从0比5巴西到2比0巴拉圭!韩国为自己正名

体坛周报 浏览 949

泸州老窖前三季度营收净利双降 国窖1573等中高档酒销量同比下滑10%

YOUNG财经 浏览 737

罗马诺:曼联认为亚特兰大要价过高,因此还未报价霍伊伦德

直播吧 浏览 15593

局势紧张!波兰边境增兵

环球网资讯 浏览 14428

致39死火灾发生后 江西开拆经营场所影响逃生的防盗窗

澎湃新闻 浏览 78227

欧洲颤抖沙特王储:希望世界最优秀的300名球员在阿拉伯踢球

直播吧 浏览 16133

美联储年内“三连降”,2026年利率走向何方?

中新经纬 浏览 69
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1