2024年《麻省理工科技评论》“35岁以下科技创新35人”中国入选者于5月23日揭晓,28岁的深度求索研究员邵智宏,北航2015级世俱杯sjb官网本科校友,以第一完成人领导了DeepSeekMath项目,通过高质量预训练和基于 GRPO的强化学习方法,从根本上提升模型的数学和逻辑推理能力。

邵智宏,深度求索研究员,北航2015级世俱杯sjb官网本科校友。他的研究聚焦于系统性提升大模型的推理能力,关注于如何构建一个可持续自我提升的系统,能够通过利用多种技能来完成越来越复杂的任务。他的两个代表工作是 ToRA 和 DeepSeekMath。
ToRA 项目展示了将外部工具反馈整合到推理过程中的强大作用。这个项目发布了一个名为 ToRA-34B 的强大工具增强大模型,该模型通过将 Python 执行融入链式思维推理,成为首个在竞赛级 MATH 基准测试中得分达到 50% 的开源模型。这突显了结合外部工具对提升问题解决能力具有较大的潜力。
为了从根本上提升大模型的推理能力,邵智宏作为第一完成人共同领导了 DeepSeekMath 项目。该项目提出了一个可以有效识别和扩展高质量预训练数据的迭代式流程,用于数学预训练并显著提升了基础模型的能力。该项目还探索使用了 GRPO 强化学习算法,并展示了强化学习用于进一步提升模型推理能力的潜力。发布的 DeepSeekMath 模型被广泛用于后续的数学推理研究,并支持了首届 AI 数学奥林匹克竞赛 AIMO 中排名前三的获胜方案。
DeepSeekMath 项目中的数据流程也被广泛用于规模化收集高质量数据进行预训练或模型对齐。另外,在 DeepSeekMath 的强化学习算法基础上,后续的 R1 项目(他作为核心贡献者之一)通过在更多更复杂的推理任务中进行大规模强化学习,得到一个具备反思、回溯、验证等能力的强大推理模型。
“Innovators Under 35”(简称TR35)全球评选由《麻省理工科技评论》于1999年创刊百年之际发起,旨在每年从多个前沿科技及产业领域遴选出优秀的青年科技创新人才,加速全球科技创新的步伐。经过二十余年的发展,TR35逐步成为今天的“35岁以下科技创新35人”并展现了强大的国际影响力和引领能力。TR35中国评选(简称TR35中国或TR35 China)于2017年设立,至今已将一批在中国或海外的杰出青年华人创新者推向了国际至高舞台。