关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者617人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子称13岁时被继父强奸 继父称"被冤枉" 警方介入

奔流新闻 浏览 74482

越涨越买,奢侈品巨头赚翻

环球网产经 浏览 19146

五角大楼语焉不详 美防长“隐瞒住院”原因成谜

环球网资讯 浏览 12652

39岁郭碧婷复出 胖一大圈越来越像向太

叶公子 浏览 14480

刘德华在商场被围观 遭女粉丝强行挽手吓一大跳

盖饭娱乐官方号 浏览 19507

鞠婧祎新剧造型到底用了多少发际线粉?

新氧 浏览 16033

来了!小鹏P7+增程版申报图现身

Nice好车 浏览 1056

杨紫起诉拉夏贝尔子品牌,法院判赔25万

网易娱乐 浏览 19426

刚果金暴发未知疾病,已造成14人死亡

趣看热点 浏览 286165

以军称已有87万巴勒斯坦人从加沙城撤离

环球网资讯 浏览 981

小米SU7 Ultra飞坡翻滚多圈 车主:感谢雷军

扬子晚报 浏览 957

英国网速为什么还不到东南亚的一半?

远川研究所 浏览 15614

英格兰板球球星模仿格拉利什庆祝名场面,后者转发:我喜欢!

直播吧 浏览 16019

阿门-汤普森:从小一直看球 每年都买联盟通 它有点偏贵

直播吧 浏览 15327

美方称美海岸警卫队将向亚洲增派巡逻舰

参考消息 浏览 16536

Stop!这样化妆可是超级显老的!

《瑞丽服饰美容》 浏览 19643

减肥减不下来 真跟皮质醇有这么大关系吗?

新氧 浏览 17311

对比三个真实原型的疯狂行径,我才知B级片的尺度,只是个开胃菜

皮皮电影 浏览 12089

爷爷爱穿的生胶鞋,现在又成为时尚单品了?!

伊周潮流 浏览 14998

工信部:将会同有关部门加强养老服务机器人研发

IT之家 浏览 366

‍♂️吧友们抓紧了!国足主帅报名将于明天截止

直播吧 浏览 1587
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1