关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者601人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

寒武纪去年预亏最高收窄至7.56亿元,营收略有降低

澎湃新闻 浏览 12735

上海U20男足进全运8强,徐根宝:出线是第一位,成绩是硬道理

懂球帝 浏览 727

66岁安帅径直离场!发布会暴怒:首负日本无法接受,点名狠批1人

我爱英超 浏览 1011

张勇:期待重组对业务产生积极影响

南方都市报 浏览 14401

香港这一夜,36岁赵丽颖获奖,彻底拉开了和其他85花们的距离

不八卦会死星人 浏览 12063

经典落幕:苹果正式将初代iPhone SE列为过时产品

环球网资讯 浏览 237

有气质的中年女人不瞎穿,试试这三种受欢迎的冬季单品,时尚大气

Yuki时尚酱 浏览 13316

阿斯报:若报价达到4000万欧元,黄潜愿出售前锋杰克逊

直播吧 浏览 16486

美联储降息25基点 预计2026年降息一次

网易财经 浏览 61

天文观测挑战牛顿理论?韩国学者:如证实对宇宙理解产生巨大影响

量子位 浏览 14592

美台讨论共同研发武器 国防部回应

央视军事 浏览 7211

4500亿果链龙头狂赚115亿,潮汕富豪父女身家超800亿

21世纪经济报道 浏览 698

铁了心扳倒GL8!直降4万3,双层玻璃+大7座,油耗5L,还要啥比亚迪?

隔壁说车老王 浏览 12600

2025蔚来日在杭州成功举办

财经无忌 浏览 1657

湖人123-120险胜猛龙,八村垒三分绝杀,詹姆斯17中4仅8分

懂球帝 浏览 192

基本款选优衣库,流行款看GU,杂志编辑给女大们推荐了这些!

日系志Yumi 浏览 12125

赵乐际赴广东、李鸿忠赴甘肃 关注未来五年立法规划

政知新媒体 浏览 119945

虚假宣传!任泽平宣称能生发防脱的洗护产品被处罚

界面新闻 浏览 12544

中金:通胀超预期,美联储降息紧迫性下降

网易财经 浏览 12709

新能源车卖得好不好,全看吹的姿势好不好?

蓝鲸财经 浏览 16635

消失在官方记录中的定制传奇:法拉利FX

老爷车 浏览 719
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1