强化学习真的能激励LLMs超越基础模型的推理能力吗？arxiv.org/ab

又仁看科技 2025-04-25 08:52:11

强化学习真的能激励 LLMs 超越基础模型的推理能力吗？

arxiv.org/abs/2504.13837

这篇论文比较悲观的认为强化学习通过提高正确路径的采样概率，确实能够提升模型在特定任务上的表现，但这种提升是以牺牲模型的探索能力为代价的。模型变得更加“保守”，专注于已知的有效路径，而减少了对新路径的探索。这导致模型在面对更广泛、更复杂的问题时，其推理能力的上限反而不如基础模型。

AI创造营

0 阅读：0

又仁看科技

感谢大家的关注

作者最新文章

1

电子书《Statistics Minus The Math》是由Nathan F

2

DeepSeekR2要发布了吗中英文爆料源都指向图1这个网站，信不信由你了[d

3

数据库教程-DB-TUTORIAL地址：dunwu.github.io/db-t

4

开源交互式 C 语言教程 ( learn-c.org ) ，英文，图为机翻。直接

5

通过 Cherry Studio 首次注册硅基流动并授权登录的新用户可得20元体

6

如何在没有操作系统时运行C语言的 printf？ popovicu.com/po

7

来自华中科技大学的研究者发了一篇MCP的综述论文arxiv.org/pdf/25

8

Secretary - 社交媒体内容分析助手github.com/zkd8907

9

The-Book-of-Secret-Knowledgegithub.com/t

10

抽奖赠书携手送出 3 本《自制深度学习推理框架》截止 2025.5.4 1

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

说刘强东作秀的，你们让王兴也秀一个噻，或者你们自己做一天体验一下。一个千亿身价的

2

预算2000元适合买什么手机？这次机型供参考，性价比和当年小米1999不相上下。

3

提前曝光vivo新机涉事方已担责这是vivo法务部发的第一条微博。虽然我们都很期

4

小米汽车在安徽高速上的事故，让人万万没想到的不是车门锁死，里面的人出不来，也不是

5

曝iPhone19Pro外形颠覆我很好奇，iPhone的外形还能有啥颠覆的呢？

6

伤害不大，侮辱性极强。抄袭是可耻的华为手机发布会之后，全体都沉默了就连库克和

7

3大家有没有想换手机3000元左右三台非常不错的手机大家关注了没有真我G

8

荣耀Power今晚发布，真机感觉还不错，相对轻薄，看不出来居然有8000mAh电

9

这就是中美AI之争奉陪到底的底气！就在刚刚，斯坦福公布重磅数据，中国追平美国！

10

昨天转网，10086电话如潮水般涌来！我昨天携号转网从移动转到了新运营商，今

科技最新文章

1

今年收到最便宜的一台华为Mate60pro.12+512G的国行.回收价格却

2

目前同价位的三款中端机红米K80/turbo4Pro还有真我Neo7

3

小红书取消大小周！互联网“卷王”时代终结？当字节跳动员工还在为“加班申请系

4

为什么最近不少公司取消大小周，背后的原因是什么？小红书将取消大小周

5

京东到底是道德绑架还是真的揭露了美团是个吸血鬼呢？1、京东给美团算的帐是否符

6

这么仔细一对比，荣耀GTPro这不妥妥旗舰大平替么~性能表现比Magi

7

刘强东请兄弟们喝的酒，我去查了下价格，不查不知道，一查吓一跳！一桶6.18

8

昨天转网，10086电话如潮水般涌来！我昨天携号转网从移动转到了新运营商，今

9

不少人说买荣耀Magic7的要哭死了，刚发布的荣耀GTPro芯片更强、续航更长

10

3大家有没有想换手机3000元左右三台非常不错的手机大家关注了没有真我G