爆点资讯

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

阅读全文

NYU研究揭示：模型宽度与能力非线性相关

价值10万的...

国乒再添一喜...

过了40岁才...

博斯：19轮...

以后请叫甄子...

苹果的大屏可...

博时基金“换帅”

《骄阳似我》顾漫花巨资买《遇见》《信仰》不是为庄序偏爱太明显

杀疯了！续航630km，还配华为乾崑高速领航

转战舞池，前意大利网球名将弗格尼尼斩获《与星共舞》冠军

三星：明年的 HBM 内存产能已售罄，考虑扩建生产线

纽卡赛季前三个英超客场均0-0战平，为英超历史首次出现

曝娜扎被抢休息室，刘亦菲聊天监听，后台大瓜!

美客机万米高空风挡玻璃破裂资深机长：或为陨石撞击

美军打击“箭在弦上” 伊朗有哪些应对手段？

阿森纳10月最佳候选：加布里埃尔、赖斯、萨卡、廷贝尔

女主播被伪装的炸弹包裹炸伤：拿起看了一眼就爆炸了

17个街道年投入逾亿元资质错配、服务动力不足何解?

古巴外长批评美国内政外交双重失序

Robotaxi发生伤人事故哈啰出行自动驾驶业务暂停运营

白宫发了张图：“痛击加拿大鹅”

媒体：特朗普会晤前后与普京通话不知乌总统是否满意

纯电续航提升 2026款比亚迪夏将于明日上市

何超莲豪宅度中秋，阖家团圆唯独不见窦骁？

2.7亿买下“徐翔家族”实控的宁波中百1888万股，拍卖刚结束股价就闪崩

变阵冲决赛！U23国足VS越南首发：狂换6人向余望先发王钰栋替补

美政府＂关门＂将结束民主党8人倒戈加入共和党人行列

航行警告：渤海部分海域进行军事演习

每台六座车装的都是中年人的无可奈何

短剧都没有她的故事精彩？62岁活成了多少人羡慕的样子