强化学习真的能激励 LLMs 超越基础模型的推理能力吗?
arxiv.org/abs/2504.13837
这篇论文比较悲观的认为强化学习通过提高正确路径的采样概率,确实能够提升模型在特定任务上的表现,但这种提升是以牺牲模型的探索能力为代价的。模型变得更加“保守”,专注于已知的有效路径,而减少了对新路径的探索。这导致模型在面对更广泛、更复杂的问题时,其推理能力的上限反而不如基础模型。
AI创造营
强化学习真的能激励 LLMs 超越基础模型的推理能力吗?
arxiv.org/abs/2504.13837
这篇论文比较悲观的认为强化学习通过提高正确路径的采样概率,确实能够提升模型在特定任务上的表现,但这种提升是以牺牲模型的探索能力为代价的。模型变得更加“保守”,专注于已知的有效路径,而减少了对新路径的探索。这导致模型在面对更广泛、更复杂的问题时,其推理能力的上限反而不如基础模型。
AI创造营
作者最新文章
热门分类
科技TOP
科技最新文章