视频生成是指通过对人工智能的训练,使其能够根据给定的文本、图像、视频等单模态或多模态数据,自动生成符合描述的、高保真的视频内容。基于应用视角可以对视频生成的方式做进一步细分,包括剪辑生成、特效生成和内容生成,三种方式的结合使用可以大量应用在电影电视、游戏、短视频、广告等视觉制作领域,在工业设计、建筑设计、教育培训等行业也可以提供更加直观的演示效果。
视频生成的技术发展可以大致分为图像拼接生成、GAN/VAE/Flow-based生成、自回归和扩散模型生成几个关键阶段,随着深度学习的发展,视频生成无论在画质、长度、连贯性等方面都有了很大提升。但由于视频数据的复杂性高,相较于语言生成和图像生成,视频生成技术当前仍处于探索期,各类算法和模型都存在一定的局限性。在早期阶段,视频生成主要基于图像-图像技术,通过将每一帧静态图像拼接成一个连续的视频流。利用图像拼接合成视频的方法较为简单易用,但缺点是生成的视频质量低、连贯性较差。
● GAN/VAE/Flow-based生成阶段:
随着机器学习技术的发展,生成对抗网络(GAN)、变分自编码器(VAE)以及基于流的模型(Flow-based model)开始被用于视频生成任务,这个阶段的发展主要集中在改进模型训练和生成算法,由于对视频直接建模的难度很高,一些模型通过将前景和背景解耦、运动和内容分解等方式生成视频,或是基于对图像的翻译来改进生成效果,以加强连续帧之间的平滑过渡,但总体效果上生成视频的质量仍然较低,难以实际应用。
● 自回归和扩散模型阶段:
随着Transformer、Stable Diffusion在语言生成、图像生成领域取得的成功,基于自回归模型和扩散模型的视频生成架构逐渐成为主流,自回归模型可以根据先前的帧来预测下一帧,视频较为连贯自然,但存在生成效率低且错误易积累的问题。一些研究将扩散模型在图像生成研究成果成功迁移到了视频生成中,通过对图像生成架构的改进使其适应视频生成任务,这种方法的优点是生成的视频具有高保真的效果,但相应地也需要更多的训练数据、时间和计算资源。在这个阶段,视频仍然不可避免地出现跳帧现象,以及内容表现的逻辑性欠缺等问题。
● 主流模型解析
1、实现原理:Imagen-Video是在Imagen模型基础上开发的基于文本条件生成视频模型,模型通过多个扩散模型的组合,先根据文本prompt生成初始视频,再逐步提高视频的分辨率和帧数来生成视频。
2、模型优缺点:所生成的视频具有高保真度、可控性和世界知识,支持生成各种艺术风格的各种视频和文本动画,并具有对3D对象理解能力,但级联模型采用的并行训练方式所需要计算资源较高。
Gen
1、实现原理:Gen模型通过潜在扩散模型学习文本-图像特征,可以根据给定的文本提示或参考图像生成新的视频,或根据原始视频+驱动图像进行视频风格转换等多种任务。
2、模型优缺点:模型在视频渲染和风格转换方面具有较好的表现,生成的视频艺术性和图像结构保持能力较强,因此可以更好地适应模型定制要求,但Gen模型在生成结果的稳定性方面仍然存在局限。
CogVideo
1、实现原理:CogVideo是基于自回归方法的大规模文本-视频生成模型,将图像生成模型CogView2应用于文本-视频生成实现高效学习,通过预测并不断拼接前一帧的递归方式来生成视频。
2、模型优缺点:模型支持中文prompt,多帧率分层训练的方法能够更好地理解文本-视频的关系,生成的视频看起来更加自然,但由于模型对输入序列长度存在限制。
● 视频生成代表模型:
视频生成任务的特点在于其所包含的画面信息多、复杂程度高、动作随机性强,还需要考虑空间、时间等因素,另外由于人眼对画面伪影非常敏感,人物的动作细节是否连贯直接影响着视频的生成效果,然而这些因素也使模型性能面临着不小的考验。在实际应用中还需要更多地考虑来自不同行业、不同场景的用户需求,因此视频生成的可控性、逼真度、连贯性是影响应用能力的关键因素。
● 可控性
对视频的可控性要求主要包括是否能够生成任意长度的视频、能否根据用户需求进行时长调整、与给定的文本和图像的关联性是否足够强、视频属性和视频中的元素是否可控可编辑,这需要提升模型对长文本理解能力,并且在时长增加的同时需要保证生成速度和画面质量的稳定。特别是对影视、动画、广告等视觉制作领域的行业用户而言,可变可控是视频生成深入行业应用的基础。视频的逼真度主要取决于画面质量和内容逻辑,不仅需要视频具有高分辨率,场景和人物具有真实感、艺术性,能够展现清晰丰富的画面细节,还需要连续帧之间、文本-视频之间保持高度相关性,使视频内容中所表现的故事情节、物体关系、运动状态等符合基本逻辑。连贯性也就是视频的丝滑程度,包括帧之间的过渡效果、动作的连续性、画面的流畅性、场景的平滑切换等。视频生成本质上就是生成一串连续的图片,因此需要保证生成的连续帧之间在时空上的连贯,避免出现画面模糊、抖动、伪影等问题。与视频生成相关的典型应用场景包括视频内容识别、视频编辑、视频生成、视频增强、视频风格迁移等,目前视频属性编辑相关的应用逐渐成熟,但视频生成距离精细化控制还存在一定差距,尚未形成产业规模化应用的能力,未来随着生成效果的提升,在很多行业中将具备广阔的应用前景。
● 视频内容识别:对视频中的物体、人脸、场景等元素进行识别分类,可以应用在交通、安防领域进行视频检索、视频分类、目标检测跟踪、异常事件识别预警等,增强监控和交通管理的智能化水平;在社交媒体、营销服务领域可以进行内容标签生成、情感分析等任务;另外还可以帮助影视工作者进行人物分类、场景分析、镜头分析等,提高电影电视的制作效率和质量。● 视频编辑:包括对现有视频进行自动剪辑、拼接、合成、特效处理、添加音效字幕等操作,从而达到更好的视觉效果。在影视制作领域,后期剪辑工作往往需要对视频进行逐帧处理,需要消耗大量的人力和时间,视频编辑能够辅助进行人物抠取、改色、消除或替换视频中的部分画面元素,提升剪辑师、特效师的工作效率,显著降低后期制作成本;在短视频领域,能够帮助个人创作者进行素材剪辑、特效添加,快速制作出更有创意的视频内容。● 视频生成:根据给定的文本描述、图片、视频等,自动生成符合场景需求的视频内容,应用在视觉制作行业可以有效实现降本增效。例如生成电影、电视剧、游戏中的虚拟场景、角色、特效等,或是根据原始影片生成电影预告片,根据产品文字介绍生成视频广告等。另外,视频生成也可以应用在医学领域,辅助生成动态人体结构、疾病模型等,用于医学教育和研究工作。● 视频增强:包括对视频进行色彩校正、去噪、锐化、超分辨率等处理。在影视和广告制作过程中能够对视频画质、色彩、对比度进行调整,特别是能够应用在对老电影、珍贵影像资料的修复工作中,提升视觉效果和研究价值。在安防监控领域,视频增强可以提高监控画面的清晰度、减少噪声,有助于提高监控系统的效率和可靠性;应用在在医疗领域可以提高医学影像的质量,辅助进行微创手术、远程诊疗、手术培训等。● 视频风格迁移:根据给定的文字描述或参考图,将原始视频转换为指定的不同风格,例如将真人视频转换为油画/素描/动漫等风格,或是进行黑白-彩色转换,日间-夜间转换处理,可以帮助影视工作者根据作品主题和情节需要快速调整风格,提高影视作品的艺术性;在广告制作领域可以根据产品定位进行风格转换,使其更加符合目标受众的偏好。目前,海外主流的视频生成工具主要来自Adobe、谷歌、Meta等科技巨头,以及Runway这样的人工智能创业公司。Adobe作为老牌的科技公司,Adobe在视觉制作领域拥有广泛的用户基础,能够满足行业用户精细化视频编辑要求。近期,Adobe宣布将Firefly引入其视频制作软件Premiere Pro和After Effects中,可以看到其正在加快将生成式AI作为工具嵌入到自有产品中,来增强Adobe全家桶的使用体验。凭借在视觉制作领域的专业性,现阶段Adobe面向B端专业用户群体的地位暂时难以撼动,而将AI能力全面搭载到Adobe产品体系中,提供便捷程度高、兼容性强的云化服务将有利于Adobe沉淀行业用户数据构建生态闭环,在未来继续保持其市场竞争优势。Runway则一方面通过不间断的研究和迭代保持自身处于AI技术能力前沿,同时Runway将30多个自研AI生成工具集成到其WEB端,意图打造自己的云端视频编辑工作流,构建起模型+应用一体化的商业模式。目前,Gen-1提供有限次数的试用后采取付费订阅模式,Gen-2目前尚未正式开放,需要通过Runway在Discord社区申请内测。Runway面向C端用户已上线搭载Gen-1手机版的视频生成app,支持文本生成视频,以及根据指定图像对手机实时拍摄的视频进行风格转换,但使用效果与其他轻量化的视频剪辑工具相比并没有突出亮点;而从Runway参与奥斯卡获奖影片《瞬息全宇宙》特效制作的成功经验来看,未来随着Gen-2能力的成熟,面向B端专业客户提供视觉定制化服务,也将是Runway利用其技术优势实现商业化落地的有效手段。谷歌已经发布的两款视频生成工具Imagen Video和Phenaki,将模型能力分别专注在对视频画质、视频时长的提升上,以满足不同场景的应用需求,其中Imagen Video支持生成分辨率为1280x768像素,每秒 24 帧的高保真度视频,Phenaki则支持根据一段较长的文字故事生成2分钟以上的视频;Meta发布的视频生成工具Make-a-Video支持文本生成视频、将单帧图像扩展为视频、为视频添加细节以及视频风格转换等任务。但目前这三款工具尚未开放测试,成果主要体现在论文和演示视频中,其实际商用可能性还有待时间验证。中国市场在AI视觉制作领域的参与者主要包括字节跳动、快手科技等短视频领域头部厂商,百度、腾讯、阿里等大型云厂,以及智谱华章、万兴科技、影谱科技等AI科技公司和视觉创意公司。随着视频生成的技术发展,视频制作的门槛将进一步降低,这也为中国视频内容生产行业实现用户增长带来了新的机会。字节跳动、快手科技均通过在短视频领域积累的庞大用户数据来沉淀技术能力,提升视频剪辑产品的使用体验,对于新媒体从业者、短视频平台主播、vlog创作者等有轻量化的视频制作需求的C端用户具有明显优势,在各自用户圈层中能够保持较好的用户粘性。其中,字节将剪映高度嵌入抖音的工作流体系,支持多端同步和云备份,目前剪映的盈利手段主要来自广告合作、售卖视频模版和视频制作课程等。面向B端用户打造的视频智能处理平台可以进行画质增强、画质修复、音频降噪、影视化后处理等工作,能够通过原子能力加速视频生成和分发;快手除了面向C端的视频剪辑产品云剪,其利用C端打磨的技术和经验已经开始向B端拓展,并推出了视频云品牌Streamlake,对行业用户开放视频生成相关任务的模块化能力。百度将文心大模型能力引入视频生成领域,百度云智能创作平台提供根据图文进行视频合成、视频剪辑、音视频对齐等服务,而围绕文心大模型构建开放生态,沉淀行业用户数据,保持在生成式AI的技术前沿是百度在AIGC领域领跑的关键;阿里云的视觉智能开放平台聚焦向视觉智能技术企业输出能力,并借助达摩院的开发者社区加速模型的优化迭代,开放平台涵盖视频生产多种下游任务,支持部署在不同平台的客户端,能够帮助行业用户搭建自己的AI应用场景;腾讯智影面向个人和企业用户提供全链路的视频创作服务,以及数字人主播等特色功能,提供免费版和多种付费订阅模式,目前已上线小程序版本,后续若持续提升智影在手机端剪辑、分享视频的便捷体验,将有利于依托微信用户的高活跃度在短视频领域形成差异化特色。智谱华章则基于模型及服务(MaaS)理念,围绕自身技术优势来打造AI通用能力,向行业用户提供精调的定制化模型服务解决方案。目前,文本视频生成模型CogVideo采用完全开源模式,支持中文文本输入,但模型仍处于研究试用阶段,其实际应用能力和与场景的适配性值得后续关注。
虽然人工智能技术在视频生成方面已经取得了一定进展,但现阶段模型的生成效果并不理想,能够同时在视频长度、逼真度、连贯性三个维度上均达到商用水平的视频生成产品仍然欠缺。除了算法模型层面的探索,在实际应用中需要平衡模型性能与生成效率之间的关系,根据不同行业和场景的用户需求对产品能力给予不同侧重,包括产品是否易于使用或部署、生成结果是否稳定可控、是否涉及技术应用风险等,因此在落地过程中,需要考虑来自易用性、可控性、合规性三个方面的挑战,这也决定了视频生成产品未来的商业化空间。
单个视频中所包含的信息量相较文本和图像都更大、更复杂,模型层面上需要更多的计算资源、更强的理解和生成能力,而从应用视角来说,使用者实际上更关心的是产品的易用性和使用体验。如何通过数据沉淀分析、功能与流程设计、引导交互等手段来改善模型局限性,将其打造为易于使用的产品,提升视频生产的速度、便捷度、交互体验是在产业应用层面更加需要解决的问题,产品易用性也是实现视频生成商业化落地的首要条件。个人用户对产品易用性的评判标准主要来自制作流程是否好上手、符合个人使用习惯,能够帮助视频创作者轻松地进行视频制作和发布,包括能够快速搜索到与文本匹配的视频素材,提供多样化的内容模版,支持多端同步、一键分享等便捷操作;小B端用户的关注重点在于能否在成本可控的前提下快速制作产品营销视频、生成数字人主播等,从而提升品牌传播和营销成功率。因此面向这两类群体需要持续打磨轻量化视频制作工具,优化核心功能模块,在此基础上引入生成式AI能力提供视频内容创意,从视频的辅助制作进展到AI协同创作。对视觉制作、内容生产创意等行业用户而言,产品易用性的要求还来自内容性与交互性的融合,包括素材的商用性、与行业应用场景的适配性,以及视频快速精准审核、批量制作分发的能力等。通过技术原子化服务和开放能力,与企业AI底座有效衔接,满足即插即用和定制化服务等不同要求,将有利于针对行业用户需求快速对接落地。目前从文本、图像生成视频普遍存在时间短、分辨率低、处理速度慢、生成结果不可控等问题,对复杂场景的理解和表现难度大,难以满足视觉制作行业用户的实际需求,距离直接商用还存在较大差距,可控性决定着生成内容是否可用,目前仍然是人工智能生成内容面临的普遍挑战。视频的稳定可控要求包括时长可调节,视频内容可以保持良好的逻辑性、连贯性、时间上的一致性,视频中的元素可高度编辑等。一方面需要通过引入先验知识、专家标注数据等方法,加强模型对人类行为模式、世界知识、场景规则的学习,帮助模型更好地理解视频生成任务。还可以结合场景对视频精度的不同要求,采用约束条件注入、微调训练专属模型、使用额外控制工具等方法,提升生成结果的可控性。由于训练数据的规模、质量、多样性、标注方式等对生成结果的可控性起到关键影响,在深入行业应用时需要考虑到目前视频生成可用的高质量数据少,特别是文本-视频数据非常稀缺,在模型层面可以通过数据增强、强化学习等方法合规利用现有数据进行针对性训练,提升中文语料库的训练效果。在应用层面可以通过设置视频生成的条件、生成范围,对视频生成结果手动调整参数进行局部优化,或是在生成过程中增加交互式控制来调整生成结果。人工智能技术应用风险是AIGC领域所面临的共性问题,聚焦到视频生成上,比较突出地体现在素材版权问题、隐私安全、伦理道德等方面。由于视频内容中包含图像、音乐、滤镜、特效、字幕等多种类型的信息,相较于图像生成,视频生成作品的版权问题则更加复杂;另外视频换脸、数据偏见、不当使用造成的个人隐私泄露、身份欺诈、虚假和有害信息传播等问题,通过视频传播的风险程度、影响范围也会更大。因此需要形成细化的行业性规范,建立监管和内容审查机制,明确各种类型数据合规获取、处理、存储和使用的范围和方式,以及对违法行为进行明确界定。
大模型的持续演进带动了生成式AI能力不断进化,在语言生成、图像生成领域创造了令人惊喜的效果,而视频的高维数据空间属性使其研究更具挑战性。目前视频生成方面的探索主要聚焦在高分辨率视频生成、针对超长文本的视频生成、生成无限时长的连贯视频等课题,并基于文生图模型的研究成果,将其引入视频生成模型对性能进行优化。例如英伟达和康奈尔大学的一项研究提出了视频潜在扩散模型,并在驾驶视频合成的训练任务上取得了很好表现,未来有望对自动驾驶的应用提供新方向;另外一些研究结合多模态信息融合的训练方法,使模型更强的语言理解能力,也将改善视频训练数据不足的问题,在视频检索、视频分类等场景中具备很强的实用价值。随着我国基础通信技术的发展,视频制作的云化是产业发展的必然趋势,下阶段视频制作的多端同步、多人在线协同创作的需求也会随之增加,生成式AI能力将进一步融入脚本创作、视频剪辑、渲染、特效等视频制作的全流程。现阶段,视频生成还有很大的潜力尚未挖掘,模型性能与产品化落地之间也仍然存在着不小的差距,但随着大语言模型、图像生成等相关技术的快速迭代,有望为视频生成技术带来新的解题思路,而视频工程化能力也将为视觉制作产业链带来效率和模式上的巨大变革。
AIGC产业研究报告系列共分为六个部分,包括语言生成篇、图像生成篇、音频生成篇、视频生成篇、三维生成篇、分子发现与电路设计篇,并将在本月陆续发布,欢迎关注并与我们共同探讨AIGC产业发展。