• 产品与服务矩阵
  • 资源中心
  • 关于我们

《2025年AI产业发展十大趋势》之一:self-play RL范式开启,大模型技术军备赛进入复杂推理阶段

趋势预测分析 易观分析 2025-01-14 2895
易观分析:通用人工智能(AGI)之路虽充满挑战,但技术进阶从未停歇,从2024年开端,向2025年延续,人工智能的发展,将由模型开发与竞赛,转向产品为先与场景打磨的新阶段,加速AI产业落地。多元应用场景雏形初现,科技大厂占据AI应用第一梯队,夸克、剪映、豆包领跑。

   易观分析发布《2025年AI产业发展十大趋势》报告,后续将针对十大趋势分别进行解析:

图片

趋势之一:self-play RL范式开启,大模型技术军备赛进入复杂推理阶段

由OpenAI发布的GPT3作为序幕,大语言模型理解和生成能力、通用和泛化能力提升等,引爆了对于AGI发展的高预期,大量大模型涌现,开源模型与闭源模型并驾齐驱,国内大模型也在奋起直追,人工智能的发展从分析式AI进入生成式AI时代。

图片

通过易观分析AI开发者调研结果来看,OpenAI GPT系列大模型以42.9%的使用率位居首位,同为海外的Meta LLaMa系列大模型以27.1%的比例位居第三位。中国的大模型企业,阿里通义大模型以37.8%的使用率位居第二。
图片
总体上而言,AI开发者在模型层的选型仍然处于变动的状态,且尚未形成相对比较明确的竞争格局。而OpenAI发布o1(草莓)模型,则再次定义大语言模型的技术方向与竞争焦点,如下图所示:
与以往的模型相比,OpenAI o1 聚焦于优化推理过程,在复杂的科学、编程和数学等任务中的表现显著提升。它能够像人类一样进行深入思考、逐步推导,这对于解决需要深度逻辑推理的问题具有重大意义,突破了对大型语言模型能力的传统认知,为人工智能在复杂任务处理上开辟了新的道路
图片
由此而开启Post-train阶段的Self-play RL(自对弈强化学习)范式对于后续大模型技术路线的升级和优化具有指引性的意义,传统预训练依赖全网语料,数据有噪声且质量不一,RLHF 后训练受人类标注数据限制。纯强化学习(RL)方法无需人类标注数据,能让模型自我探索学习,激发创新和探索能力,利于突破未知领域。
图片
同时,也需要注意到,尽管Self-play 方法已经开始在一定范围内得到应用,但是,也仍然存在挑战需要进一步研究和解决,包括收敛性问题、环境非平稳性问题、可扩展性与训练效率等问题另外,强化学习注重设计良好的“奖励模型”,但是除了数学、代码等理科领域,强化学习在其他领域仍然难以泛化。
在OpenAI发布O1推理模型之后,国内大模型厂商也紧随其后,纷纷推出了自己的推理模型。这些模型在数学、代码、推理谜题等多种复杂推理任务上取得了显著进步。
图片
总体上而言,在复杂推理阶段,大模型需要具备更高层次的逻辑推理、因果推断和问题解决能力,进而可以扩展大模型在更多领域发挥重要作用,复杂推理的重要性凸显。这进一步提升了当下大模型技术能力的评价标准与竞争壁垒。
以上观点摘录自《2025年AI产业发展十大趋势》