关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者788人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

突发!前绿军湖人双冠成员朗多被捕 涉嫌持枪与毒品两项罪名

醉卧浮生 浏览 12342

就等他暑期档创造神话了!

娱乐圈笔娱君 浏览 10701

美防长“瞒报住院”或暴露美军指挥链风险

环球网资讯 浏览 12664

特斯拉又双叒叕降价了! 美国Model S降幅超5%

智通财经网 浏览 18945

日方首度确认 中国两栖攻击舰路过鹿儿岛

参考消息 浏览 18162

春天的4个万能穿搭公式,照着穿就很时髦

LinkFashion 浏览 11513

委内瑞拉强烈反对“美国封锁空域”

国际在线 浏览 255

硬派SUV新选择,深蓝318谍照曝光

天天汽车 浏览 12641

前三季度应收账款激增603.71%,卤味巨头煌上煌靠收购和补贴撑利润?

时代周报 浏览 903

王传福的眼泪为谁而流

经济观察报 浏览 14724

美军动向:与美科技巨头加速勾连 生成式AI军事化

环球网资讯 浏览 13012

更上一层楼的德系质感 大众ID.7上市 22.7777万起

吴佩频道 浏览 12936

二十届中央财经委员会亮相 人口发展成为关注点

财联社 浏览 18659

詹姆斯退役,谁更适合担当名人堂引荐人?詹姆斯出道以来有着乔丹接班人的称号

趣看热点 浏览 25766

贵州茅台股东大会发放“定心丸”成效几何

北京商报 浏览 678

大批乌军乔装入境,俄军不得不转移注意力!

浏览 11108

中老年女性穿衣如何优雅?跟着索菲亚王后学穿搭

巧百搭 浏览 15020

俄外交部召见美大使 要求美就"北溪"事件作出解释

环球网资讯 浏览 19307

为什么有人说项羽的这句:“富贵不归故乡,如锦衣夜行”是笑柄?

趣看热点 浏览 25940

豆瓣9.1,宫崎骏大师动画神作最后告别放映!

幕味儿 浏览 803

梁靖崑一脸沮丧令人心疼!10-6手握赛点被逆转 腰伤困扰他9个月

颜小白的篮球梦 浏览 196
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1