昨晚,大型模型字段再次“活泼”,本月的黑暗面在数学,代码和多模式推理功能上发表,该功能是OpenAI的完整版本的级别。最近的Hot DeepSeek已正式推出了DeepSeek-R1,它也是关于数学,代码和自然语言推理等任务的OpenAi O1的正式版本。
去年12月开源的DeepSeek-V3刚刚引发了浪潮,并实现了许多不可能的事情。这种开源R1模型使许多AI研究人员在一开始就感到“震惊”,人们猜测它是如何完成的。
AutoAWQ作者Casper Hansen说,DeepSeek-R1使用多阶段循环训练方法:基础→RL→微调→微调→微调→RL。
加州大学伯克利分校Alex DiMakis教授认为,DeepSeek现在处于领先地位,美国公司可能需要赶上。
目前,DeepSeek已在网页,应用程序和API上完全启动。下图显示了网页的对话框接口。选择DeepSeek-R1直接体验它。
经验地址:
这次,DeepSeek以660B发布了DeepSeek-R1-Zero和DeepSeek-R1的两个参数,并选择了开源模型权重,并允许用户使用R1来训练其他型号。
在技术层面上,R1在训练阶段使用了大型重新学习(RL)技术。在仅使用很少数据的情况下,它具有大大提高的模型推理功能。下图显示了R1和O1-1217,O1-MINI的性能以及他们自己的DeepSeek-V3在多个数据集上的性能。可以看出,R1和O1-1217与彼此不可媲美,并取得胜利和失败。
此外,DeepSeek-R1蒸馏出六个小型型号,其参数从小到大,1.5b,7b,8b,14b,32b和70b。这六个模型也是完全开源的,旨在回馈开源社区并促进“ Open AI”的边界。
模型下载地址:
在性能方面,蒸馏的R1 32B和70B版本远远超过GPT-4O,Claude 3.5十四行诗和QWQ-32B,以及接近O1-Mini。
至于许多开发人员关心的DeepSeek-R1 API的价格,可以说它一如既往的强大。
DeepSeek-R1 API服务的价格为1元(缓存命中)/ 4百万元(缓存)(缓存)(缓存),每百万元产量为16元。
显然,与O1的API定价相比(投入15美元的投入15美元,每百万美元的产出60美元),DeepSeek的成本性能很高。
DeepSeek坚持将开源的确定到最后,打开R1模型的所有培训技术,并发布其背后的研究论文。
论文链接:
R1技术报告
过去,研究主要依靠大量的监督数据来提高模型性能。 DeepSeek的开发团队已经开辟了一个新想法:即使没有必要作为冷启动和罚款(SFT)作为冷启动,大型增强的学习也可以显着提高模型的推理能力。如果添加少量冷启动数据,效果会更好。
为此,他们开发了DeepSeek-R1-Zero。具体而言,DeepSeek-R1-Zero主要具有以下三个独特的设计:
首先是使用小组相对策略优化(GRPO)来降低培训成本。 GRPO不需要使用与策略模型相同的大小评估模型,而是直接从组分数中估算基线。
对于每个输入问题Q,GRPO算法将从旧策略组成一个评估组中采样一组输出{O1,O2,...,OG},然后通过最大化目标函数来优化策略模型:
其中,优势值A_I计算每个输出的每个输出的奖励:
其次是奖励设计。如何设计奖励确定RL优化的方向。 DeepSeek提供的解决方案是两种互补奖励机制:准确性和格式。
准确性奖励用于评估答案的正确性。在数学问题中,需要以特定格式给出该模型以进行验证;在编程问题中,反馈是通过通过编译器运行测试案例来获得的。
第二个是格式奖励。该模型需要将思维过程放在“和”的两个特定标签之间,以改善输出的规格。
团队不使用常用的神经网络奖励模型,因为在大规模增强学习过程中,该模型可能会有“作弊”问题。同时,还避免了重新培训奖励模型,这需要额外的资源来简化培训过程。
第三点是训练模板。在GRPO和奖励设计的基础上,开发团队设计了一个简单的模板,如表1所示,以指导基本模型。该模板需要DeepSeek-R1-Zero首先提供推理过程,然后提供最终答案。该设计仅调节基本结构,并且不对内容应用任何限制或偏见。这种最低干预设计可以清楚地观察RL中模型的进展。
DeepSeek-R1-Zero的改进也非常重要。如图2所示,在2024年进行AIME数学奥运会测试论文,DeepSeek-R1-Zero的平均通过@1得分从最初的15.6%显着增加到71.0%,达到与OpenAI-O1-O1-0912相同的水平。在大多数投票机制中,DeepSeek-R1-Zero在AIME中的成功率进一步增加到86.7%,甚至超过OpenAI-O1-0912。
DeepSeek-R1-Zero和OpenAI O1-0912在多个相关参考测试中得分。
在训练过程中,DeepSeek-R1-Zero表现出显着的自我进化能力。它已经学会了产生数百到成千上万的推理令牌,这些代币可以探索和改善思维过程。
随着训练的加深,该模型还发展了一些先进的行为,例如反思和探索不同问题的能力。这些不是预装,但是模型是在增强学习环境时自然产生的。
尤其值得一提的是,开发团队观察到一个有趣的“ AHA时刻”。在训练的中间,DeepSeek-R1-Zero通过重新评估初始方法来更合理地学习。这可能是增强学习的魅力:只要提供了正确的奖励机制,模型就可以独立发展高级问题 - 解决策略。
但是,DeepSeek-R1-Zero仍然存在一些局限性,例如可读性和混合语言。
使用冷启动进行加固学习
与DeepSeek-R1-Zero不同,为了防止在RL培训的早期,基本模型在寒冷的开始阶段开始,开发团队为R1构建了少量的长COT数据,以微调该模型作为初始的模型RL演员。为了收集这种类型的数据,开发团队探索了几种方法:以小样本提示为例,直接提示该模型通过反思和验证来生成详细的答案,以可读格式收集DeepSeek-R1-Zero输出,并通过劳动力振兴评论的结果以完善结果。
DeepSeek以微调DeepSeek-V3碱为RL的起点收集了数千个冷启动数据。与DeepSeek-R1-Zero相比,冷启动数据的优势包括:
经过修订的导向增强学习
在使用冷启动数据后,DeepSeek-V3基础进行了微调,开发团队使用了与DeepSeek-R1-Zero相同的大规模增强学习训练过程。在此阶段,它专注于增强模型的推理能力,尤其是在密集的任务中,例如编码,数学,科学和逻辑推理。
为了减轻混合语言的问题,开发团队在RL培训中引入了语言一致性奖励。计算方法是COT中目标语言单词的比例。尽管消融实验表明,这种对齐将导致模型性能略有下降,但这种奖励在符合人类偏好方面更可读。
最后,开发团队直接直接添加了推理任务的准确性和语言一致性,从而形成了最终的奖励。然后加强训练模型(RL)训练,直到它在推理任务上达到融合为止。
拒绝采样并监督罚款
当将合理而密集的学习融合用于推理时,开发团队使用生成的检查站来收集SFT(监督和罚款)数据,以进行后续回合。此阶段结合了来自其他领域的数据,以增强模型,角色扮演和其他通用任务的能力。
开发团队通过拒绝上述检查点的拒绝采样来组织推理提示并生成推理轨迹。在此阶段,还合并了其他数据扩展的数据集。他们中的一些人使用生成奖励模型来判断基本事实和模型预测。
此外,开发团队滤除了混合语言,长段落和代码块的链条。对于每个提示,他们将提取多个答案,并仅保留正确的答案。最后,开发团队收集了约60万个与推理相关的培训样本。
用于增强所有场景的学习
为了进一步保持模型和人类的偏好,我们还必须在这里实施加强学习的第二阶段,该阶段旨在提高模型的实用性和无害性,同时提高其推论能力。
具体来说,研究人员将奖励信号和各种及时分配的组合用于培训模型。对于推理数据,请遵循DeepSeek-R1-Zero概述的方法,此方法使用基于规则的奖励来指导数学,代码和逻辑推理领域的学习过程;对于一般数据,奖励模型用于捕获复杂而微妙的场景。人类的偏好。
最后,奖励信号和多元化数据分布的整合使我们能够培训一个在推理方面表现良好的模型,同时,我们可以优先考虑实用性和无害性。
蒸馏:使小型型号具有推理能力
为了使更有效的小型模型具有Deekseek-R1的推理能力,开发团队还使用了DeepSeek-R1编制的800,000个样本来微调开源模型,例如Qwen和Llama。研究结果表明,这种简单的蒸馏方法显着增强了小型模型的推理能力。
得益于上述技术的创新,开发团队的大量基准测试表明,DeepSeek-R1在肩部行业中实现了SOTA大型模型的艰苦力量。有关详细信息,您可以参考以下结果:

微信客服
微信公众号