爆点资讯

当我们训练人工智能写代码或解数学题时，就像教小孩做作业一样，需要给它很多练习题。但问题来了：有些题目太简单，AI一下就会了；有些题目太难，AI怎么也学不会。更麻烦的是，按照传统方法，不管题目难易，我们都给每道题分配同样的练习时间和次数。这就像让学霸和学渣都花同样时间做同一套题——既浪费了学霸的时间，也帮不到学渣。

来自伊利诺伊大学香槟分校、微软研究院和阿姆斯特丹大学的研究团队，在2025年10月发表了一项名为"Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training"的研究。这项研究就像给AI学习装上了"智能调节器"，让它能够根据题目难度自动分配练习时间，既不浪费计算资源，又能确保每道题都学得扎实。

研究团队的核心发现是：当前主流的AI训练方法GRPO（组相对策略优化）存在一个严重问题——当AI对某道题的所有尝试都得到相同结果时（要么全对要么全错），系统就收不到有用的学习信号，就像老师看到学生交上来的作业要么全是满分要么全是零分，无法判断学生的真实水平。

为了解决这个问

AI让机器写代码变得更聪明：伊利诺伊大学团队破解训练瓶颈新方法

郭晶晶就个人...

日本对中俄举...

美媒列29岁...

蔡崇信第一把...

瓦格纳结束休...

美丽与年龄无...

＂灌篮高手＂主题曲乐队发讣告鼓手于5月22日去世

“大战”危险升级，能否阻止就看特朗普了

全新旗舰级SUV 奥迪Q9霍希版谍照曝光

媒体：俄导弹炸毁北约驻基辅情报大楼为假

蔡崇信第一把火！菜鸟推出自营快递，对标顺丰京东

Gurman：苹果已在开发M3芯片的MacBook Air，2024年发布

人气爆棚！这些城市，满血复活……

人工智能时代如何深化跨区域知识产权保护协作，嘉定这场论坛进行了探讨

徐璐身材瘦了好多，但脸蛋仍是＂小方形＂？

胡塞武装：以军空袭萨那致9死174伤包括大量妇女儿童

沙溢自曝曾吃了狗吃过的面发烧三天

巴特勒无力救主脸色铁青离场：24投28分难掩末节两分尴尬

会打扮的女人有多美？看她们不穿老年装，不披头散发，美到骨子里

中汽协:2023汽车产销皆超3000万辆同比增10%以上

抖音团购：巨大流量“困扰”线下商家

杨洋新恋情被嘲！历任女友都是大美女

军报披露中央军委副主席何卫东再有新身份

比得兔2确认引进，或有望2021年暑期档同步上映

蔚来＂疯狂＂招工:办公室挤不下去食堂面试月薪可达8千

四川舰海试中方捷报频传美破防咬定中国有8艘＂航母＂

凌晨4点利物浦保卫战！输球=英超5连败+72年之耻标王缺席

郭富城爱驹赛马跑第一赢百万奖金，紧搂方媛庆祝

荷兰主帅科曼：选贝尔温首发是想让他在右边路多深入内线

米体：米兰今夏本想租借戴维带最终失败已将他视为明年首选目标