关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3503人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蔚来多款车型推出电池月租付一赠一限时优惠

网易汽车 浏览 2697

贝弗利:安东尼曾因不想跟林书豪同队而没跟哈登和霍华德组三巨头

懂球帝 浏览 3457

国货统治全球:正在爆发的AI硬件市场

诗与星空 浏览 2610

泡泡玛特回应79有点贵直播事故;山姆回应支付跳色情网站丨邦早报

创业邦 浏览 3440

这一次,抖音美妆让36万用户来定义美

时尚COSMO 浏览 2162

中东壕客下单:先订600台!飞行汽车海外最大订单来了

南方都市报 浏览 3825

斯基拉:吉达联合正尝试续约38岁的本泽马,已开出两年新合同

懂球帝 浏览 2569

松弛感穿搭太适合秋冬了,减龄又好看

LinkFashion 浏览 3435

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

LinkFashion 浏览 2466

【中超】埃杜加西亚梅开二度 9人深圳客场2比1三镇

体坛周报 浏览 3552

华为坤灵中国行首站落地上海,助力中小企业智能化跃升

上观新闻 浏览 2890

上海业主花700万买精装修新房 刚到手就遇到糟心问题

极目新闻 浏览 42833

你算老几?我算老己!

时尚COSMO 浏览 2950

32岁杨紫又“变脸”,皮肤紧致一脸高原红,重回“锦觅”颜值巅峰

温柔娱公子 浏览 4275

ACEMAGIC阿迈奇预告M1A PRO+迷你主机,搭载锐龙AI Max+ 395

IT之家 浏览 3111

19.88万买原厂合规越野车 212 T01长风柴油版上市

网易汽车 浏览 2869

华人博士在英国做出颠覆性人机交互“皮肤”,已用于汽车、医疗

创业邦 浏览 2979

妻子在家中失踪 深井边的菜让丈夫顿感不妙

环球网资讯 浏览 34054

限量3000台 广汽本田新飞度焕新价6.68万

网易汽车 浏览 2654

双星名人创始人父子决裂 父亲称被儿子扣工资借钱维生

极目新闻 浏览 9981

何穗孕照被扒!和陈伟霆一举得男,超模都偏爱港男,生娃不办婚礼

萌神木木 浏览 3671
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1