关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者3601人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新势力比传统车企更乐观,2026年车市充斥着哪些挑战?

汽车头条APP 浏览 2457

比亚迪10月销售441706辆 新能源累计销售超1420万辆

网易汽车 浏览 3457

联合国秘书长敦促黎以冲突各方重返谈判桌

国际在线 浏览 1603

OpenAI确认旗下首款AI硬件今年发布,形态有望为“一支笔”

IT之家 浏览 2533

窦骁何超莲国外被偶遇!女方冲浪心情大好,窦骁喝咖啡满脸愁容

萌神木木 浏览 3416

努诺未来明确,西汉姆联确认新团队成员

绿茵情报局 浏览 2668

杨笠突然清空社媒!自曝生病睡眠差,长期遭攻击疑似萌生退意

萌神木木 浏览 3459

买插混车盯紧这个数!明年可能多花上万元

中新经纬 浏览 3882

冬天穿衣既要有温度又要有风度!看看这些穿搭,优雅又显瘦

静儿时尚达人 浏览 2636

当年最红的女明星,“孤苦伶仃”?

Yuki女人故事 浏览 2643

外套里面穿什么?这4款内搭时髦又显瘦!

Yuki女人故事 浏览 5319

何超琼近况曝光,生图皮包骨大小眼,西装裤松垮

张发林 浏览 4168

斯塔默:允许美使用英方有关军事基地打击伊朗导弹设施

环球网资讯 浏览 42021

科创板主题基金规模突破三千亿元 “上新”的指数如何参与创新和成长?

金证研 浏览 3552

唱吧等39款APP被通报

第一财经资讯 浏览 3410

纯电版奥迪A6亮相!外观很动感,配800V架构+5块大屏,续航785Km

小史谈车 浏览 3092

港媒曝光何超莲家中资产分配,签不签婚前协议,窦骁都捞不到好处

萌神木木 浏览 3583

李白放弃回国嫁给撒贝宁,人生中最正确的决定

可乐谈情感 浏览 2971

埃迪-豪面对前东家伯恩茅斯7场不胜,并列英超主帅最长不胜纪录

直播吧 浏览 4319

科学家构建AI“赛博学术小镇”,让化工科研实现自主演化

DeepTech深科技 浏览 3735

消息称一加性能新机搭骁龙 8 系旗舰芯 + 超高刷屏、有很酷的联名

IT之家 浏览 3513
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1