关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3512人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

海外市场成行业“香饽饽”,小米汽车也想“分一杯羹”

雷达财经 浏览 226

秦岚现身香港机场被偶遇,素颜皮肤白皙

胖子的勇气 浏览 2692

高市早苗4天上3次新闻联播:玩火者必自焚

看看新闻Knews 浏览 45926

李小冉这种人最精了!

娱乐圈笔娱君 浏览 727

聚焦进博|一个巴西律师的“新上海故事”

国际金融报 浏览 3431

科学家发现首批 45 亿年前“原始地球”痕迹,揭示太阳系早期秘密

IT之家 浏览 3653

美防长抨击美军士兵肥胖后 一张照片火了

环球网资讯 浏览 8103

媒体:日本出口护卫舰 不能和中国出口武器混为一谈

新民周刊 浏览 33631

王小卤的双11:在抖音电商,把凤爪“嗦”成国民零食

一点财经 浏览 3533

港台影视圈已经没有“小花”了

仙女事件簿 浏览 3535

演技炸裂,今年奥斯卡影帝,直接给他得了

独立鱼 浏览 2395

梦想100万亿美元,追觅CEO却忙着网络通缉

金角财经 浏览 2441

又离了!李亚鹏得名“八离世家”

Yuki女人故事 浏览 3723

这家中国民企,破解了“迪拜之眼”难题,还拿下30多项“世界第一”!

国是直通车 浏览 3530

曼城外租至斯托克城的穆巴马在对阵QPR时受伤,被担架抬出场

懂球帝 浏览 2578

伊姐周日热推:电视剧《超感迷宫》;电视剧《风与潮》......

伊周潮流 浏览 2408

换了四辆车之后,我对六座SUV彻底失望了,这些家庭要买更不推荐

小李车评李建红 浏览 4292

弗里克:来巴萨后我变了,我也不希望孙子看到爷爷是这样的

懂球帝 浏览 3514

Anthropic指控DeepSeek等中国AI大模型抄袭 遭马斯克贴脸开骂:贼喊捉贼 大规模窃秘数据

快科技 浏览 2000

数十农民工被拖欠百万工钱 劳务公司:争取春节前兑付

大风新闻 浏览 5628

被网友质疑要两千万私了 遭老板性侵女高管爆粗回怼

极目新闻 浏览 5481
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1