关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者785人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

车企价格战年底再升级:本月近20个品牌参战,小鹏新车上市不到半年就降价

澎湃新闻 浏览 13000

朱珠一家旅游!女儿为妈妈补妆 对奶嘴有瘾惹争议

叶公子 浏览 14243

张兰被扒也穿过透视装,回应针对大S的原因!

缘木不求娱 浏览 12328

朋友圈贷款营销广告扰人,有何后果?用户何解?

北京商报 浏览 11187

曙光宣布启动智慧工业战略

网易科技报道 浏览 16814

外观酷似G级 奔驰全新纯电SUV谍照曝光

车质网 浏览 319

珍妮:若08年想交易来大加索尔的消息提前泄露 会有多队试图截胡

直播吧 浏览 19187

环球:美政客明火执仗要抢劫 TikTok遭遇最猛烈打压

环球网资讯 浏览 82663

中甲综述:广西平果哈嘹5分领跑 广州队收获赛季主场首胜

直播吧 浏览 15326

乔欣的综艺穿搭,想夸一句“好会穿”

瑞丽网 浏览 19485

公牛官方:帕威左脚遭遇急性骨水肿 将在两周后进行重新评估

直播吧 浏览 12528

船员在公海杀同事6个月后跳海潜逃 中国海警跨境捉拿

扬子晚报 浏览 4067

特朗普在专机上提到与高市早苗通话:她是安倍的好朋友

红星新闻 浏览 6390

投篮能力去哪了?浓眉19-20赛季命中72记三分 此后共77记

直播吧 浏览 12044

日本计划部署导弹可攻击中国 当地民众:万分危急

环球网资讯 浏览 13065

阿里小贷正式完成注销,退出历史舞台!

中国基金报 浏览 859

苏丹武装部队总司令拒绝与快速支援部队和解

界面新闻 浏览 12566

以部长:已接回人质 必须重启战争打开加沙"地狱之门"

看看新闻Knews 浏览 905

SRM理工学院发布:文本到视频生成技术演进图谱

科技行者 浏览 632

郑恺晒与陈赫等10人合影,被扒P掉7处烟盒打火机,遭吐槽一群老登

萌神木木 浏览 247

120公里时速L3破局:广汽昊铂A800引领智能驾驶新赛道

澎湃新闻 浏览 343
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1