关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者796人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

企业在自然保护区建研学机构烂尾7年 致百亩农田荒废

封面新闻 浏览 5924

媒体:马英九戳破民进党"皇帝的新衣" 赖清德恼羞成怒

直新闻 浏览 76098

产品力再提升 全新雪佛兰Bolt EV新车图解

车质网 浏览 749

亲善大使!大加转发阿贾当选MVP内容:4xMVP 继续创造历史吧!

直播吧 浏览 1540

战国七雄最后一位王是谁?名字又是什么?

趣看热点 浏览 26132

索尼大量机密信息遭泄露,原因是他们用记号笔打码

游研社 浏览 15178

夏天试试这些裙子和裤子 舒适自然又显气质

Yuki时尚酱 浏览 15931

超辽宁升第2!浙江决战被轰13-0崩盘输深圳 吴前22+9+6里程悲

醉卧浮生 浏览 12731

赖清德称"想要与大陆重新开启对话" 国台办回应

中国网 浏览 76760

国防部:中国不参与任何形式的军备竞赛

环球网资讯 浏览 1408

生物芯片上海国家工程研究中心四川分中心在成都揭牌

封面新闻 浏览 971

今年流行的配饰,“大一点”才好看

LinkFashion 浏览 11683

开场就是3起离奇命案,比春节大片还好看!芒果台这波输出,成了

皮皮电影 浏览 12714

Ella日前为了电影拉票,在记者会上承诺,如果票房破5000万,就请五月天穿原住民民族服

趣看热点 浏览 26333

科学家发现首批 45 亿年前“原始地球”痕迹,揭示太阳系早期秘密

IT之家 浏览 940

福建4名干部落水失联 无人机发现1具疑似失联人员遗体

上游新闻 浏览 115488

预售13-15万元 北京现代EO羿欧将于10月29日上市

网易汽车 浏览 937

A股突发!刚刚,释放三大信号!

券商中国 浏览 1012

今年冬天最流行搭配:裤子+靴子,高级又时髦!

LinkFashion 浏览 387

日本将首次向海外派出F-35 与澳大利亚联合演习

环球网资讯 浏览 14441

浙江一家三口全部过世 留下的百万遗产确定继承人了

每日经济新闻 浏览 90514
X
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1