2025年1月,DeepSeek发布R1版本,凭借独特的技术架构和高性价比,迅速引发关注,成为焦点。2月20日,中国科大北京校友会邀请齐炜祯、吕红亮、杨耀东、郑书新分享他们对DeepSeek与中国AI前景的看法与展望。沙龙活动在中科院计算所举行,中国科大、中科院计算所、网络信息中心校友师生约320人出席。
【主题报告】
齐炜祯(1511,中关村人工智能研究院研究员,中国科大-微软联培博士)就Deepseek模型技术演进与架构革新的话题展开了讨论,他从模型架构迭代路径的角度展示DeepSeek是如何从复述前人到自主研发诸如MoE-MLA组合(以降低成本)与FP8/FP16/FP32混合精度优化(以提升底层计算能力)的、从不出彩的v1版本迭代更新到万众瞩目的R1版本的。
杨耀东[0906,北京大学人工智能研究院助理教授(博雅学者) ]介绍了AI对齐的核心挑战与前沿探索。他介绍AI对齐的核心原则是确保模型安全无害、服从指令、利益一致。杨耀东通过举例说明了对齐的一般方法。他同时强调,对齐内外风险并存,外部漏洞(如越狱攻击)与内部目标偏移(如过度优化短期奖励)需动态监测。
郑书新(1023,中关村人工智能研究院副院长、中国科大-微软联合培养博士)用轻松的语言说明了AI对未来产业的影响。他从ChatGPT的迭代讲起,ChatGPT历经数代每一代都比前一代有了层次上的提升。他展望世界AI的未来说总会有人突破AI技术的壁垒将AI带上新的高度,而其他人做的只是降低成本加强效果。
吕红亮(0210,粉笔教育算法负责人)系统解读了DeepSeek-R1论文,并完整介绍了该模型四阶段训练的全流程复现过程。论文首先阐述了DeepSeek-R1-Zero的训练范式:基于DeepSeek-V3-Base基座模型,在完全不使用标注样本的情况下,通过纯强化学习实现推理能力的突破(即论文所述"Aha-Moment");随后,论文详细阐述了DeepSeek-R1的四阶段构建过程:冷启动阶段的监督微调(Stage1)→专注于代码与数学能力的强化学习(Stage2)→基于80万样本的监督微调(Stage3,含60万推理样本与20万通用样本)→全场景强化学习(Stage4)。
论文还提出通过蒸馏方法获得小尺寸推理模型,具体采用Qwen2.5和LLaMA的chat模型作为基座,使用DeepSeek-R1第三阶段的80万样本进行微调即可得到小型化推理模型。
在复现实践环节,吕红亮重点说明了三个关键部分:
1.DeepSeek-R1-Zero复现:可参考多个开源项目,如24点问题(https://github.com/Jiayi-Pan/TinyZero)、"谁在说谎"问题(https://github.com/Unakar/Logic-RL),这些项目能有效复现论文中的"Aha-Moment"。需特别注意代码强化学习(RL)需在沙箱环境运行,避免影响整体训练任务。
2.DeepSeek-R1复现:既可从已训练的DeepSeek-R1-Zero生成60万推理数据用于SFT,也可直接采用开源数据或DeepSeek官方R1接口生成数据。完成Stage3的SFT后,建议优先针对数学与代码领域实施强化学习(Stage4),该方法虽未在论文中详尽说明,但实证效果显著。
3.成本测算:完整复现DeepSeek-R1需约570万美元(含DeepSeek-V3-Base基础模型训练的556.6万美元成本);若基于Qwen2.5-72B-Base构建领域推理模型,在增量预训练token量不超过10亿的情况下,总成本可控制在10万元人民币以内。
【互动环节】
在互动环节中,昆仑万维CEO方汉(904)、月之暗面研究员冷燚冲(1502,中国科大-微软联合培养博士)、 腾讯高级研究员银大成(1506,中国科大-微软联合培养博士)、南栖仙策(南京)科技算法副总裁赵鉴(1406)也参与了答疑。夏尔巴投资张贝贝(0908)、Momenta董维山(0011)、芯斯维朱慧珑(772)等多位校友参与提问互动。
致谢:本次活动为中国科大北京校友会主办,中科院计算所、中科院计算机网络信息中心联合主办,感谢计算所提供活动场地、网络中心提供支持,感谢志愿者吴仁海(2400)、楚子琛(2400)帮助负责签到、会议记录等事宜。谨此致谢!
2025-02-28