强化学习真的能激励LLMs超越基础模型的推理能力吗?arxiv.org/ab

又仁看科技 2025-04-25 08:52:11

强化学习真的能激励 LLMs 超越基础模型的推理能力吗?

arxiv.org/abs/2504.13837

这篇论文比较悲观的认为强化学习通过提高正确路径的采样概率,确实能够提升模型在特定任务上的表现,但这种提升是以牺牲模型的探索能力为代价的。模型变得更加“保守”,专注于已知的有效路径,而减少了对新路径的探索。这导致模型在面对更广泛、更复杂的问题时,其推理能力的上限反而不如基础模型。

AI创造营

0 阅读:0
又仁看科技

又仁看科技

感谢大家的关注