导语
定义
主要类型和应用领域
技术发展的关键阶段
主流模型实现原理及优缺点
● 主流模型解析
扩散模型(Diffusion Model)
1、实现原理:扩散模型是通过定义一个扩散步骤的马尔可夫链,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学习逆扩散的过程,经过反向降噪推断来生成图像。扩散模型通过系统地扰动数据中的分布,再恢复数据分布,使整个过程呈现一种逐步优化的性质,确保了模型的稳定性和可控度。
2、模型优缺点:扩散模型的优点在于其基于马尔可夫链的正向及反向扩散过程能够更加准确地还原真实数据,对图像细节的保持能力更强,因此生成图像的写实性更好。特别是在图像补全修复、分子图生成等应用上扩散模型都能取得很好的效果。但由于计算步骤的繁杂,相应地,扩散模型也存在采样速度较慢的问题,以及对数据类型的泛化能力较弱。
CLIP(Contrastive Language-image Pre-training)
1、原理:CLIP是基于对比学习的文本-图像跨模态预训练模型,其训练原理是通过编码器分别对文本和图像进行特征提取,将文本和图像映射到同一表示空间,通过文本-图像对的相似度和差异度计算来训练模型,从而能够根据给定的文本生成符合描述的图像。
2、模型优缺点:CLIP模型的优点在于其基于多模态的对比学习和预训练的过程,能够将文本特征和图像特征进行对齐,因此无需事先标注数据,使其在零样本图像文本分类任务中表现出色;同时对文本描述和图像风格的把握更加准确,并能够在不改变准确性的同时对图像的非必要细节进行变化,因此在生成图像的多样性方面表现更佳。
由于CLIP本质上属于一种图像分类模型,因此对于复杂和抽象场景的表现存在局限性,例如可能在包含时间序列数据和需要推理计算的任务中生成图像的效果不佳。另外,CLIP的训练效果依赖大规模的文本-图像对数据集,对训练资源的消耗比较大。
● 国内外代表模型:
影响模型应用能力的关键因素
● 图像质量
典型产业应用场景
● 图像分类、图像分割:可以在工业、工程设计等领域辅助进行目标识别、图像相似度检索,辅助CAD设计等;在医学领域可以帮助进行医学影像标注、解剖、病理结构变化分析等。另外,图像生成模型在零样本分类任务中的良好表现,可以在不需要进行额外训练的情况下快速创建项目,有效提升了模型的工程化能力,降低了对数据标注的要求和训练成本。
● 图像生成和图像风格转换:在艺术设计、产品设计、动画与游戏制作等方面均有充分的商业化潜力,可以将其大量应用于创作艺术作品,根据设计者的草稿图、创意概念来生成图像,以及图像合成、图像编辑、增强图像艺术性等,从而能够帮助设计师、建模师进行动漫人物、游戏场景的制作,帮助完成海报、产品LOGO和产品包装设计等工作。在电商的应用方面,图像生成可以在虚拟试衣间、模拟商品展示等场景提升用户的在线购物体验。
● 图像修复:能够根据已有图像的上下文信息修复缺失部分,例如上色、去除噪声或填充缺失部分,对图像对比度、锐度或色彩鲜艳度等图像要素的增强等,可以应用于数字化历史文献的修复、图像修补等。在摄影与影视制作方面,对老照片、老电影的修复和画质提升都具有很强的应用价值。
● 图像超分辨率:能够从低分辨率图像恢复和重建高分辨率图像,在医学影像处理场景中,结合模型的数据合成和预测能力进行图像识别、特征提取和图像重建,能够帮助医生创建逼真的病例和解剖结构,生成CT扫描图像,辅助进行病情的分析诊断。另外,在天文观测和卫星遥感观测等方面,利用图像超分辨率能够提升成像设备的性能,并克服时间差异、气象变化等因素引起的图像场景变化,为天文探索发现增加了更多可能性。
未来,随着图像生成技术的发展,其与3维生成的强相关性将会更多在视频、教育、建筑以及虚拟空间建模等方向形成纵深探索。模型的稳定可控能力是影响未来发展的核心要素,目前图像生成内容仍然存在较大的不确定性,对于艺术创作有助于激发灵感,但对图像本身可控性要求极高的领域来说,生成图像是否与预期目标相符,以及对图像精度的精准控制十分关键,这将有利于拓展其在生物医药、工业制造、航空航天等领域的应用前景。
商业化过程中面临的挑战
● 国内外主流图像生成产品及商业模式
从国内外市场需求和规模来看,目前图像生成在AIGC领域中总体的商业化进展较快。
国外主流的图像生成平台以Midjourney、Stable Diffusion、DALL-E 2为代表。其中,Midjourney采用闭源付费模式,在对Diffusion Model精调后部署在Discord上,用户通过与bot的交互来获得图片,从生成效果来说其对艺术风格的把握独树一帜。Midjourney通过早期开放公测积累了大量用户群,在Discord频道中形成了高活跃度的社群,以SaaS付费订阅模式提供通用或定制化服务,构建起了较为成熟的商业模式。
而Stable Diffusion则完全开源,因此模型的优化迭代速度非常快,形成了较好的开发者生态,其盈利手段主要通过API收费和面向专业领域的B端用户提供定制化模型服务;此外,Stable Diffusion可以作为插件应用嵌入Photoshop,支持直接在PS上生成图像并保存,能够为专业设计工作者的效率和体验带来显著提升。
DALL-E 2通过百亿级大规模参数集进行训练,能够形成稳定和高质量的图像,生成效果更接近真实照片,目前DALL-E 2采取闭源付费模式,而依托OpenAI与微软的深度合作关系,搭载ChatGPT能力并将产品嵌入微软的办公生态,将使DALL-E 2建立起核心竞争优势。
另外,Adobe也推出了图像生成模型集Firefly,并融入到Adobe工作流,Adobe还强调其训练数据来自Adobe Stock 素材库、公开许可内容和版权已过期的公共领域内容,可以生成专为商业使用的高质量图像,并计划和Photoshop、Illustrator、Premiere等系列产品深度整合,这些手段将有利于建立面向专业设计领域的客户优势,提升用户粘性。
对于国内市场而言,随着我国自主研发模型的技术进展,文心一格、CogView、ZMO等AI图像生成产品通过模型调优和知识增强训练,对中文提示词具备更强的理解能力,在美术创作、广告设计等领域已经形成了一定的用户基础。其中,文心一格提供面向C端用户的免费和付费模式,依托文心大模型的能力,文心一格在多模态交互方面具有明显优势;CogView通过API开放能力,支持与企业AI底座的能力对接和模型微调,并提供面向B端用户的定制训练和私有化部署服务;ZMO则将商业化重点聚焦在图生图任务中,进行产品图到营销海报等真实场景的图像生成,积累了一定规模且有付费意愿的小B端用户。可以预见,国内图像生成领域的商业化进程速度将加快并迎来用户的快速增长期,但仍然需要结合技术能力和产品能力进行深度打磨,通过构建数据层、模型层、应用层的生态闭环形成可持续发展。
● 图像生成商业化落地挑战
结合国外主流平台的成功经验与国内市场情况,打造成熟的商业模式需要关注来自三个方面的挑战。
● 数据能力挑战
图像生成的效果很大程度依赖于训练数据的规模和数据质量,图像生成产品在向更多专业领域和行业深入时,需要考虑行业存在的数据壁垒、数据量不足、数据质量不高等问题。另外,针对不同行业的特定场景的图像生成要求,需要结合行业知识进行增量训练,但目前图像生成模型仍然存在对复杂语义和抽象关系上的理解难度。
在模型训练阶段,可以通过数据增强策略、利用合成数据预训练等方式进行优化,提升下游任务的性能。但在商业化过程中,还需要考虑资源、性能、成本的平衡。因此,针对不同类型的用户群体,构建数据资产经营的闭环将起到决定作用。
对于C端用户,通过结合用户所输入的提示词(prompt)、生成图像选择等进行交互行为和偏好分析,利用这些沉淀的数据形成可靠的数据资产,以此提升数据筛选、标注和分类能力,以及模型的中文语义理解能力和图像风格化能力,更有针对性地进行模型迭代;同时引导用户形成中文生成内容社区,来优化内容分发方式,针对不同的用户圈层和付费意愿打造差异化的服务模式。Midjourney的一个关键成功因素就是基于Discord建立内容社区形成用户共创的格局,从而不断沉淀数据资产,提升用户粘性。
对于B端用户,可以借鉴Stability AI的商业模式,通过建立适用性良好的框架积累不同行业客群,沉淀内容和行业经验,以此提供面向用户特定需求的定制模型,例如能够对动画制作、影视制作、建筑设计等行业高质量的艺术效果图的需求进行模型调优和二次开发,形成具有行业属性的图像生成产品,将是国内图像生成下阶段商业化的成功关键。
● 产品化能力挑战
图像生成模型落地应用的过程中,需要解决模型训练阶段和下游任务实现之间的差距,满足产业场景下对图像生成的实际需求。例如在实际应用时,用户所输入的提示词直接决定了图像生成的实际效果,因此模型对于prompt的理解和运用非常关键。如果能在文生图过程中,减少文本描述量和复杂度的情况下保持对语义的准确把握,将明显降低用户的使用门槛;在此基础上,在用户意图的基础上进行扩展,生成超越预期的高质量图像,将有效提升用户体验,提升产品化能力。
而影响图像生成的产品化能力的因素,一是模型本身的性能能否直接满足应用要求,二是能否在产品中引入附加工具来解决模型局限性问题,而可控性是产品化的核心挑战。
其中一个实现方式是通过扩大参数集和数据集规模来提升模型性能,并提高对图像编辑、图像风格转化、图像超分辨率等多种下游任务融合应用的能力,从而支持多种个性化需求和控制生成图像的细节,相应地,也需要更强的模型部署能力、环境和配套资源。
另外,还可以通过引入ControlNet等微调模型来生成指定要求的图像,实现对画面中的物体位置、人物姿势等精确控制,优化图像生成模型不可控的问题,并能够进行视角调整、光影调整、细节添加等,以满足B端用户对于产品可控性的更高要求,同时也有利于在控制训练成本的前提下实现产品的快速落地。
● 监管合规挑战
生成式AI的发展不可避免引发来自人工智能技术应用风险的问题,商业化的一大前提是需要满足监管的合规性要求,近日网信办已经下发了《生成式人工智能服务管理办法》的征求意见稿,也将加速AIGC对于数据使用和行业发展的规范化。对于图像生成类产品,合规性考量主要包括隐私保护、版权保护、人工智能治理三个方面。
隐私保护方面,由于使用图像生成工具进行内容创作的成本低、操作简单、逼真程度高,在一定程度上造成了信息滥用问题,可能导致隐私泄露、伪造欺诈引发的信息安全和财产损失,例如将深度合成的人脸图像用于金融领域的身份识别欺诈,利用含有欺骗性或者其他有害的图像内容进行传播和其他不当行为等。因此需要提升图像在生成、流转、存储等过程中的数据安全,以及加强对伪造图像的判别和提示。
版权保护方面,图像生成模型基于网络公开数据进行训练,将可能会产生涉及图像知识产权的风险,例如有研究指出生成模型可能存在从训练数据中复制图像而不是生成新图像。目前,一些行业和相关机构已经要求所有生成式AI内容必须注明来源,或是直接禁用生成式AI的使用。图像生成作品是否应该受到版权保护,原创内容与生成内容的比例应该如何界定等,都是图像生成在实际应用中需要考量的问题。
人工智能治理方面,一是公平性问题,由于图像生成模型的训练数据包含大量未经过清洗的数据集,使图像生成模型中可能隐藏的如性别、种族、文化等数据偏见。二是模型可解释性问题,大模型在深度神经网络结构层级越来越复杂的情况下,存在对底层数据的淹没问题,导致模型的可解释性变弱,解析生成模型内部表征的难度变得越来越高。图像生成模型可以创建逼真场景或人物图像,其可解释性也与实际商用的可能性强相关。因此建立可信可控的人工智能需要纳入从模型训练到产品落地的全过程。
前沿探索与趋势展望
目前,图像生成技术的前沿探索主要聚焦在如何加强对图像实体关系的深度理解、提升多模态间转换生成效果、提高采样速度和样本质量的研究等方面,从而提升模型对复杂和抽象任务的图像生成效果,以及形成更强的跨模态能力和实用性。
其中,OpenAI提出的全新图像生成模型Consistency Models,不仅能够解决扩散模型迭代步骤多、采样速度慢的问题,并且无需对抗训练可以直接生成高质量样本,可以快速完成图像修复、图像超分辨率等多种图像任务,表现出了更强的应用潜力。另外,对于传统的GAN结构在增加架构容量导致的不稳定问题,已经有研究提出了全新的生成对抗网络架构,在推理速度和图像生成效果方面展现了更好的性能,可以看到GAN在图像编辑、图像转换等场景的应用潜力仍然存在。
从产业应用层面来看,随着用户规模化效应显现和治理规范的落地,下一阶段图像生成将向更加标准、细分的市场需求方向发展。在面向类型不同的使用者时,对生成效果的要求也存在不同的视角和选择偏好,C端用户关注图像生成平台的便捷性、付费模式、图像风格等使用体验。B端用户则更加看重图像生成的产品能力、服务模式,行业应用场景的丰富程度,以及与自有产品和系统结合的适用性、本地化部署要求等,用户的定制化需求也将明显增加。
因此需要在技术层面、商业模式层面进行共同探索,例如开发者生态、部署策略、垂直场景应用、IP合作分成、用户运营等,构建健康合规发展的产业生态模式,将有利于推动国内图像生成领域的产品化落地。
AIGC产业研究报告系列共分为六个部分,包括语言生成篇、图像生成篇、音频生成篇、视频生成篇、三维生成篇、分子发现与电路设计篇,并将在本月陆续发布,欢迎关注并与我们共同探讨AIGC产业发展。