《2025年AI产业发展十大趋势》之一：self-play RL范式开启，大模型技术军备赛进入复杂推理阶段

趋势预测分析易观分析 2025-01-14 2895

易观分析：通用人工智能（AGI）之路虽充满挑战，但技术进阶从未停歇，从2024年开端，向2025年延续，人工智能的发展，将由模型开发与竞赛，转向产品为先与场景打磨的新阶段，加速AI产业落地。多元应用场景雏形初现，科技大厂占据AI应用第一梯队，夸克、剪映、豆包领跑。

易观分析发布《2025年AI产业发展十大趋势》报告，后续将针对十大趋势分别进行解析：

趋势之一：self-play RL范式开启，大模型技术军备赛进入复杂推理阶段

由OpenAI发布的GPT3作为序幕，大语言模型理解和生成能力、通用和泛化能力提升等，引爆了对于AGI发展的高预期，大量大模型涌现，开源模型与闭源模型并驾齐驱，国内大模型也在奋起直追，人工智能的发展从分析式AI进入生成式AI时代。

通过易观分析AI开发者调研结果来看，OpenAI GPT系列大模型以42.9%的使用率位居首位，同为海外的Meta LLaMa系列大模型以27.1%的比例位居第三位。中国的大模型企业，阿里通义大模型以37.8%的使用率位居第二。

总体上而言，AI开发者在模型层的选型仍然处于变动的状态，且尚未形成相对比较明确的竞争格局。而OpenAI发布o1（草莓）模型，则再次定义大语言模型的技术方向与竞争焦点，如下图所示：

与以往的模型相比，OpenAI o1 聚焦于优化推理过程，在复杂的科学、编程和数学等任务中的表现显著提升。它能够像人类一样进行深入思考、逐步推导，这对于解决需要深度逻辑推理的问题具有重大意义，突破了对大型语言模型能力的传统认知，为人工智能在复杂任务处理上开辟了新的道路。

由此而开启Post-train阶段的Self-play RL（自对弈强化学习）范式对于后续大模型技术路线的升级和优化具有指引性的意义，传统预训练依赖全网语料，数据有噪声且质量不一，RLHF 后训练受人类标注数据限制。纯强化学习（RL）方法无需人类标注数据，能让模型自我探索学习，激发创新和探索能力，利于突破未知领域。

同时，也需要注意到，尽管Self-play 方法已经开始在一定范围内得到应用，但是，也仍然存在挑战需要进一步研究和解决，包括收敛性问题、环境非平稳性问题、可扩展性与训练效率等问题。另外，强化学习注重设计良好的“奖励模型”，但是除了数学、代码等理科领域，强化学习在其他领域仍然难以泛化。

在OpenAI发布O1推理模型之后，国内大模型厂商也紧随其后，纷纷推出了自己的推理模型。这些模型在数学、代码、推理谜题等多种复杂推理任务上取得了显著进步。

总体上而言，在复杂推理阶段，大模型需要具备更高层次的逻辑推理、因果推断和问题解决能力，进而可以扩展大模型在更多领域发挥重要作用，复杂推理的重要性凸显。这进一步提升了当下大模型技术能力的评价标准与竞争壁垒。

以上观点摘录自《2025年AI产业发展十大趋势》

未经易观分析授权，严禁转载、引用或以任何方式使用易观分析发布的任何内容。经授权后的任何媒体、网站或者个人使用时应原文引用并注明来源，且分析观点以易观分析官方发布的内容为准，不得进行任何形式的删减、增添、拼接、演绎、歪曲等。因不当使用而引发的争议，易观分析不承担因此产生的任何责任，并保留向相关责任主体进行责任追究的权利。

了解易观分析

《2025年AI产业发展十大趋势》之一：self-play RL范式开启，大模型技术军备赛进入复杂推理阶段

热门推荐

联系我们