关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3510人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

牛弹琴:英国"动真格"了 王子被"大义灭亲"剥夺头衔

上游新闻 浏览 14446

美迪西子公司遭客户索赔1.59亿元,因新药项目安评报告交付滞后

红星资本局 浏览 4530

女人年纪大了怎么穿?试试:衣选长、鞋带跟,会叠穿,才优雅

静儿时尚达人 浏览 3166

张建勇、张国富等22人增持北汽蓝谷 刘观桥增持花了4年工资

道哥说车 浏览 2682

章子怡近照脸部发肿,最具特色的骨相优势都没了

萌神木木 浏览 2533

情侣连续9年在千年古树下合影:18岁喜欢的人还在一起

潇湘晨报 浏览 9296

她是半个娱乐圈的“妈”,丈夫与她相爱40年

说历史的老牢 浏览 4223

女人“会穿衣”才更美,看看这些穿搭就知道,穿对了真显气质

静儿时尚达人 浏览 1962

创维抄袭格力,为何低级得如此赤裸裸?

正经社 浏览 2598

港股半导体板块大涨 中芯国际涨超11%

证券时报 浏览 298

智己LS8官图发布:5米车长增程动力 理想L8怕了吗

大李说车 浏览 2478

财务造假?自主可控龙头也不行,罚他倾家荡产

诗与星空 浏览 4459

美国对伊朗考虑"军事选项" 中方回应

澎湃新闻 浏览 2606

高市早苗当选首相 日本史上首名"第一先生"信息披露

环球网资讯 浏览 7665

向太曝郭碧婷父亲患病或时日无多,儿媳长期留台,私房钱贴补娘家

不八卦会死星人 浏览 3807

苹果被曝开发类ChatGPT应用!专为训练新Siri打造

智东西 浏览 4158

《阿凡达3》第一波真实口碑,国内票价令人咋舌

娱乐圈笔娱君 浏览 2913

吹过的牛,奇瑞新能源兑现了

电动势 浏览 2380

签下千亿锂电大单?容百科技,被证监会立案调查!

财通社 浏览 2628

“全球坚韧船队”成员控诉遭辱:以色列虐待所有人

看看新闻Knews 浏览 3771

短剧要翻拍《新英雄本色》,短剧一哥刘萧旭主演,海报有内味儿

最爱酷影视 浏览 3804
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1