关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2620人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

在马来西亚失联男子姐姐:不知道弟弟是跟女生一起出游

极目新闻 浏览 3826

戳破马拉松泡沫经济

诗与星空 浏览 2672

谁的自动驾驶算法更厉害?这场比赛在京沪同步开赛,定义未来出行安全边界

文汇报 浏览 1979

乌克兰全境频遭空袭 中使馆发布重要提醒

每日经济新闻 浏览 1639

墨西哥一市长怀抱幼子被当众枪杀 曾誓言根除贩毒集团

红星新闻 浏览 8048

官方:斯特拉斯堡中场帕普-迪奥普租借加盟图卢兹

懂球帝 浏览 1724

日媒:中国U23仿佛在球场筑起万里长城,完成了数据上不可能的奇迹

懂球帝 浏览 1579

“反对标题党,绝不是反对把标题写得有吸引力”

深蓝财经 浏览 1621

梁靖崑:和老婆秀恩爱被围观!

冷峻视角下的世界 浏览 1675

伊朗外长:战争结束取决于确保不再发生“侵略”

极目新闻 浏览 458

消息称一加性能新机搭骁龙 8 系旗舰芯 + 超高刷屏、有很酷的联名

IT之家 浏览 2568

雷军跨年直播拆车,15台手机撬动300亿市值?

BT财经 浏览 1727

特朗普警告:如果以吞并约旦河西岸 将失去美所有支持

鲁中晨报 浏览 8211

外交部:奉劝包括巴拉圭在内的极个别国家政府认清形势

环球网资讯 浏览 7413

肖战主演电影《得闲谨制》,有点东西!

不八卦会死星人 浏览 2034

【年度爱用】她们2025年买得最值的,是这些

黎贝卡的异想世界 浏览 1641

2025福布斯中国内地富豪榜发布:钟睒睒连续五年登顶,雷军超越马云排第七

红星资本局 浏览 2489

那些外国博主们,怎么突然开始吹中国手机了???

差评XPIN 浏览 1625

突破“手”的瓶颈,具身智能正加速迈向“实干”

上观新闻 浏览 1990

媒体:中国该如何在军事部署上经营台湾 如今值得思考

新民周刊 浏览 6948

省委书记暗访次日 市委书记赴现场办公要求加快整改

新京报政事儿 浏览 6191
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1