关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者608人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

曾经一文不值的锂矿石火了 郴州村民:一晚能搞一两万

海报新闻 浏览 124120

瓜迪奥拉:德布劳内伤势严重将缺席数月,我们要决定是否手术

直播吧 浏览 14402

孙宏斌决定再赌一把

华尔街见闻 浏览 16382

乐聚机器人已完成股改,正推进IPO计划,刚完成15亿元融资

红星资本局 浏览 878

丁俊晖:来英锦赛心情和状态好;与特鲁姆普比赛是最难的

懂球帝 浏览 195

工信部副部长:我国家电、家具等100多个品类产量全球第一

IT之家 浏览 339

咪蒙短剧《八零后妈》火爆,合作发行方每月收入超4亿元,曾折戟创业板

红星资本局 浏览 11669

上市公司创始人被刑拘 两月前离婚被分走近5亿元股票

每日经济新闻 浏览 113724

中方表态菲律宾加拿大签军事协议

北京日报 浏览 721

在深圳山中野居十多年的男子回到老家:不知父亲已离世

极目新闻 浏览 77279

阿森纳欧冠100胜分布:对西班牙球队16胜最多,对德法各11胜

懂球帝 浏览 843

凯特戴高街耳环亮相红毯,与威廉甜蜜互动击碎传闻

DailyFlora 浏览 19499

郝蕾暗讽辛芷蕾,内娱回到十年前了?

大龄女一晓彤 浏览 643

英特尔侵犯芯片专利被判赔22亿美元,成美国史上规模最大专利侵权案之一

趣看热点 浏览 233072

美政府"停摆"破纪录 英伟达市值一夜蒸发1.4万亿元

每日经济新闻 浏览 5866

又一家新能源车企申请破产 经销商联名举报:诈骗公司

每日经济新闻 浏览 17712

预测票房26亿!除了中文配音拉胯,《疯狂动物城2》没任何毛病

最爱酷影视 浏览 368

乌武装部队前总司令扎卢日内提议:在乌克兰部署核武器

环球时报国际 浏览 14641

免疫调节原研药赛能缺货致价格翻倍!已有药店限购,相关企业回应:涨价是市场行为

红星资本局 浏览 794

坦克队喜剧的内核是悲剧?

静易墨 浏览 937

中甲综述:广西平果哈嘹5分领跑 广州队收获赛季主场首胜

直播吧 浏览 15336
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1