关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者609人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

胡塞武装称袭击美国一艘油轮和多艘舰艇 美军方回应

海外网 浏览 12301

宗馥莉辞职内幕曝光,大女主的复仇之路,如何伤了娃哈哈?

北向财经 浏览 1009

媒体人:河南与三镇比赛的主裁判执法经验不足,多次引起争议

直播吧 浏览 18407

双巴大战来了!萨巴伦卡、莱巴金娜会师WTA总决赛争冠

懂球帝 浏览 691

两场硬仗,一个拐点,蔚来穿越最长谷底

雪豹财经社 浏览 891

谢娜主持晚会还是差一口气!直播接不上话,看热闹忘记控场一直笑

萌神木木 浏览 732

复旦上线中国高校最大云上科研智算平台,45亿参数科学大模型一天训完

第一财经资讯 浏览 15669

伊朗革命卫队呼吁为真主党领导人被杀“复仇”

参考消息 浏览 365

关晓彤与鹿晗日本过七夕节 路人曝鹿晗宠女友细节

叶公子 浏览 14592

人工智能“伪造”新书公然售卖 作家回应:情况会越来越糟

财联社 浏览 14731

燕翔:微盘股策略的逆向投资特征

首席经济学家论坛 浏览 921

新能源车销售月薪多少?蔚来理想亮了,比亚迪笑了

汽车公社 浏览 12638

汪峰演唱会翻车唱不上去,葛荟婕精准补刀

吃瓜盟主 浏览 692

建议多穿衬衫和白色长裤 清爽减龄显气质

Yuki时尚酱 浏览 16004

统一企业中国提500亿大目标,可食品业务没顶住

斑马消费 浏览 14546

以高官“鼓励加沙巴勒斯坦人迁移”引争议

环球网资讯 浏览 12846

以军称已有87万巴勒斯坦人从加沙城撤离

环球网资讯 浏览 978

俄军抵达坠毁地点 美媒讨论“参战可能”

环球网资讯 浏览 19237

内塔尼亚胡:加沙地带停火将很快进入下一阶段

环球网资讯 浏览 80

里夫斯咋没消息?湖记:他们还在等报价 球队提供了4年5200万合同

直播吧 浏览 15324

南部战区空军航空兵某旅组织实战化飞行训练

极目新闻 浏览 12272
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1