字跳和清华等单位开源了DAPO的算法(应该是deepseekGRPO的改进版

又仁看科技 2025-03-18 09:27:38

字跳和清华等单位开源了DAPO的算法(应该是deepseek GRPO 的改进版?)及其配套的大规模强化学习系统,以及对应的模型DAPO-Zero-32B。

dapo-sia.github.io/

DAPO 项目完全开源了强化学习训练方案,包括算法细节、数据集、验证器、模型权重和基础设施。

ai生活指南ai创造营 ​​​

0 阅读:1
又仁看科技

又仁看科技

感谢大家的关注