关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者847人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赵昭仪,开启叮呤咣啷系穿搭第一人

时尚COSMO 浏览 11419

李永吉任朝鲜人民军总参谋长

环球网 浏览 14854

市监总局对5家社区团购企业作出处罚

人民日报 浏览 26060

除了卖汽水,这家外资巨头还在中国修飞机、开医院丨国是访问

国是直通车 浏览 645

2025蔚来日在杭州成功举办

财经无忌 浏览 1662

女子被丈夫掐脖致偏瘫:他曾嫌女儿吵闹用烟头烫她胳膊

极目新闻 浏览 7004

苗苗郑恺的窒息婚姻:女方携全家搬来妹妹被吐槽

传媒一班 浏览 16468

姚明回应上海队和江苏队消极比赛:十分痛心

环球网 浏览 120833

优势不再,2024外国车企会继续衰落吗?

买车家 浏览 12630

克洛普:瓜帅是最好的教练,德布劳内会和杰拉德一样载入史册

直播吧 浏览 12176

斯基拉:阿森纳正在关注铃木彩艳,有意在下个赛季引进他

懂球帝 浏览 247

比亚迪秦L信息曝光 有望搭载第五代DM-i混动技术

行车视线 浏览 12737

枪炮与玫瑰!这是灰熊队的新logo?

直播吧 浏览 15125

湖北U20 1-0山东U20,范绪林点射制胜

懂球帝 浏览 611

福奇称美国人或需戴口罩至2022年,未来疫情形势依旧难以预测

趣看热点 浏览 122810

理想汽车:2月新开门店8家,理想L7即将开启交付

界面新闻 浏览 18910

2.9T V6插混 全新一代奥迪RS 6谍照曝光

车质网 浏览 1471

中国4大领域纳入出口管制,又把对手甩身后

浏览 11145

车主称比亚迪一款混动车纯电模式下会自行启动发动机,公司:正在跟进

澎湃新闻 浏览 14600

因为它,马斯克和兵马俑跳起了《科目三》

爱范儿 浏览 12425

8699元学习机成“大板砖”!维修要2499元,家长:交了智商税

北京商报 浏览 970
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1