爆点资讯

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

阅读全文

NYU研究揭示：模型宽度与能力非线性相关

仅仅是 AI...

特朗普下令重...

复旦大学等顶...

账面1000...

26小伙辞职...

蔡磊抗＂冻＂...

＂地表最难乒乓球赛＂上全运会卫冕冠军王曼昱差点输了

文旅上市潮，进入Next Level

推广|| 冬天利用率超高的裙子，怎么搭都对！

撑起500亿票房，国产片几大关键词：高质量动画大片、多维度抗战作品、话题性艺术佳作

柬泰签署停火联合声明中方回应

杨丽萍离婚22年，富豪前夫依旧迷恋她主打守护

她复出拿奖，这次没人笑得出来

财经早餐：国内金饰1克已高达1235元；人民币对美元汇率中间价报7.0995

上海AI实验室ImgCoder：AI实现科学手绘图精准生成

格里马尔多：穆帅说我是超级球员？被最伟大教练之一夸很荣幸

王家卫持续被扒

60+女性穿搭“高级感”秘诀：4个日常技巧，轻松美出优雅气质

49岁梁咏琪拼命吸金，打扮朴素逛超市

尘埃落定！全部划归国资！许家印的“御用包工头”被掏空家底

18.99万起，智享大六座旗舰SUV风云T11上市，又要卖爆？

多位老人痴迷买保健品：有人甚至吞安眠药逼女儿妥协

女子应聘疑遭老板性暗示涉事企业法人：出于工作需要

仅仅是 AI，并不能让硬件更「智慧」，更重要的其实是这个

印欧达成自由贸易协定

银价已见顶

菲亚特Punto Racer:九十年代意式小钢炮的遗珠

币圈大佬的重生：特朗普特赦赵长鹏

多给2分钟来背锅？大帝25分钟20+6丢绝杀马克西才该为失利担责

强奸大嫂凶手出狱后去大嫂家大嫂吓得穿内衣跑出求救