关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者1355人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

7天票房2.3亿,差评满天飞的“大烂片”被捧上日冠,中国观众咋了

娱乐圈笔娱君 浏览 1659

小鹏汽车CEO何小鹏:所有核心产品线都要走向全球市场

IT之家 浏览 1746

是时候考虑购买美国大豆了,为了“拴住”特朗普!

北向财经 浏览 2543

徐帆带徐朵参加活动,徐朵发文回应质疑

无处不风景love 浏览 1579

媒体:高市内阁就"雷达照射"贼喊捉贼 遭批国家的耻辱

新民晚报 浏览 19024

小S发跨年照纪念大S 对比去年跨年照不止少一个

并不擅长圈粉的铁任 浏览 1752

最喜欢的对手,特罗萨德职业生涯对利物浦进球最多

懂球帝 浏览 1679

王家卫评论区沦陷!跟秦雯调情还曾让女配音员舔手,滤镜碎了一地

萌神木木 浏览 2591

“魏桥系”635亿并购冲刺,张波家族能否稳居中国十大富豪?

野马财经 浏览 1720

鸿蒙智行"9系"扩容 首款MPV智界V9来了

网易汽车 浏览 2069

官方:巴黎前锋杜埃右大腿肌肉拉伤,将伤缺数周

懂球帝 浏览 2581

不露腿也想穿好看,最关键的是这一点

黎贝卡的异想世界 浏览 1587

每3辆出口摩托就有1辆“重庆造”:“摩都”走向世界了!丨这座城市有点东西

国是直通车 浏览 3421

移动联通重押雷鸟创新背后:智能眼镜发出“独立宣言”,欲告别“手机附属品”标签

华夏时报 浏览 1678

8.88万起终身质保 威麟R08把皮卡玩成“理财产品”

网易汽车 浏览 3548

翟欣欣获刑12年 苏享茂哥哥曾称庭审当天首次听她道歉

极目新闻 浏览 15017

特朗普试图重建长期关税壁垒 民主党将阻止

华尔街见闻官方 浏览 975

乐摩科技八成设备“躺”在影院

北京商报 浏览 2253

老外在中国的最酷打开方式

时尚COSMO 浏览 4331

冬季穿衣别太过于单薄,看看这些大衣和羽绒服,保暖简约百搭

静儿时尚达人 浏览 2055

狼队主帅:我执教的6场比赛,踢到后面球队总是会自己崩盘

懂球帝 浏览 1983
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1