【[63星]Minimal-RL:用最简洁的方式提升大型语言模型的数学推理能力,从拒绝采样到强化学习的深度探索。亮点:1. RAFT++算法仅用正样本训练,早期收敛速度快;2. 提出Reinforce-rej新变体,KL效率提升显著;3. 项目代码开源,易于复现和扩展】
'A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce'
GitHub: github.com/RLHFlow/Minimal-RL
强化学习 语言模型 数学推理 AI创造营