Adobe团队:如何实现长视频生成?

当你打开手机刷短视频时,有没有想过为什么那些AI生成的视频总是只有短短几秒钟?为什么不能像电影那样讲述一个完整的故事?这个看似简单的问题,实际上触及了当前人工智能领域最前沿的技术挑战。
目前市面上最先进的AI视频生成技术,即使是被誉为"神器"的那些模型,也只能生成5到16秒的短片段。更让人头疼的是,一旦视频时长超过16秒,就会出现各种"翻车"现象:主角的脸突然变了,场景莫名其妙地切换,或者整个画面开始"抽风"。这就像是一个讲故事的人,讲着讲着突然失忆了,前后情节完全对不上号。
面对这个技术难题,Adobe Research领导的国际研究团队决定来一次"大起底"。他们花费了大量时间,深入研究了32篇相关论文,试图找出破解长视频生成难题的关键所在。这不是一次普通的文献回顾,而是一次真正的"技术考古"——他们要挖掘出那些隐藏在复杂算法背后的核心秘密。
研究团队发现,长视频生成面临的挑战就像是在玩一个极其复杂的拼图游戏。每一帧画面都是一块拼图,而AI需要确保这些拼图不仅单独看起来完美,拼接在一起后还要构成一个连贯的故事。问题在于,当拼图块数量从几十块增加到几千块时,整个游戏的难度呈指数级上升。
更有趣的是,研究团队还发现了一个令人意外的现象:那些声称能生成150秒长视频的模型,虽然在时长上实现了突破,但生成的内容往往存在大量重复帧,就像是一台卡顿的录像机,同一个画面反复播放。这种"虚假繁荣"让人们意识到,真正的长视频生成不仅仅是时间的延长,更是质量的保证。
在商业数据集方面,研究团队揭示了一个鲜为人知的现状:几乎所有可商用的高质量视频数据集都需要昂贵的商业许可证。像MovieBench、Koala-36M、CelebV-HQ这样的顶级数据集,普通研究者根本无法获取,这就像是想学做菜,但最好的食材都被锁在高级会员制的超市里。
这项研究的价值不仅在于全面梳理了当前技术现状,更重要的是为未来的发展指明了方向。研究团队构建了一个全新的分类体系,将现有的长视频生成方法分为六大类:关键帧到视频、离散时间块、高压缩、扁平化3D时空、令牌流自回归,以及闭源方案。每种方法都有其独特的优势和局限性,就像不同的烹饪方法适合制作不同类型的菜肴。
一、技术路线大揭秘:六种流派各显神通
在深入研究了众多技术方案后,研究团队发现当前的长视频生成技术可以分为六大流派,每个流派都有自己独特的"武功秘籍"。
关键帧到视频流派采用的是"分而治之"的策略。这种方法就像制作动画片一样,先画出关键的几个画面,然后让AI来填补中间的过渡动画。StoryDiffusion这样的代表性模型会首先将用户的文本描述分解成若干个子情节,为每个子情节生成一张关键帧图片,然后使用专门的运动预测模块来生成这些关键帧之间的过渡动画。这种方法的好处是可以确保整个视频在语义上保持连贯,但缺点是需要两个独立的模型协作,增加了系统的复杂性和延迟。
离散时间块流派则像是在组装乐高积木。MAGI-1等模型将长视频切分成固定长度的小段(比如24帧一段),每段独立生成,最后拼接成完整视频。这种方法的优势在于能够显著降低GPU内存需求,支持并行处理多个片段,但挑战在于如何处理片段边界处的衔接问题,避免出现明显的"拼接痕迹"。
高压缩流派走的是"以空间换时间"的路线。LTX-Video等模型使用了一种名为VideoVAE的压缩技术,能将视频压缩192倍,大幅减少需要处理的数据量。这就像是将一部高清电影压缩成几兆的文件,虽然处理速度大大提升,但不可避免地会损失一些细节信息,特别是在快速运动的场景中可能出现模糊或伪影。
扁平化3D时空流派是目前最主流的技术路线。这类方法将整个视频看作一个巨大的3D数据块,在一次前向传播中生成完整视频。HunyuanVideo、WAN2.1等知名模型都采用这种架构。虽然这种方法能确保最佳的帧间连贯性,但对计算资源的需求极其巨大,限制了能生成的视频长度和分辨率。
在扁平化3D时空流派内部,又进一步细分为四个子类别。基础型模型专注于建立核心的时空建模能力,单主体个性化模型能够根据用户提供的参考图像生成特定角色的视频,多主体个性化模型可以在同一个视频中处理多个不同的角色,而多镜头叙事规划模型则能够像电影导演一样,自动规划不同镜头之间的转换。
令牌流自回归流派采用了类似语言模型的技术思路。VideoPoet和Loong等模型将视频转换成一串"视频单词",然后像写文章一样逐个预测下一个"单词"。这种方法的灵活性很高,但在长序列生成时容易出现误差累积,导致视频质量逐渐下降。
最后一个流派是闭源方案,包括谷歌的Veo3、OpenAI的Sora、字节跳动的Seedance等商业产品。这些模型在性能上往往领先开源方案,但具体的技术细节对外保密,就像是武林中的绝世秘籍,只有少数人能够掌握。
二、架构组件深度解析:构建视频生成的"工具箱"
就像建造一栋大楼需要各种不同的建筑材料和工具一样,构建一个优秀的长视频生成模型也需要精心选择和组合各种技术组件。研究团队通过对比分析,为每个关键组件提供了选择建议。
在文本视觉编码器的选择上,传统做法是将CLIP和T5两个模型组合使用,就像是让两个翻译官同时工作,一个负责理解图像,另一个负责理解文本。但最新的研究表明,使用多模态大语言模型(MLLM)可以获得更好的效果。HunyuanVideo等先进模型已经开始采用这种方案,因为MLLM能够同时处理文本和图像信息,实现更好的跨模态理解。
在训练目标的选择上,扩散模型经历了从DDPM、DDIM到流匹配(Flow Matching)的演进过程。研究团队特别推荐了一种名为MeanFlow的新方法,这种方法就像是学习一个"平均运动规律",而不是试图精确预测每一个瞬间的变化。实验结果显示,MeanFlow在Kinetics-400数据集上的FVD得分达到128,显著优于传统流匹配方法的142,同时推理速度提升了4倍。
变分自编码器(VAE)是视频生成模型的"压缩专家"。研究团队发现,3D VAE是目前最有效的选择,因为它能够同时处理空间和时间维度的信息压缩。更有趣的是,一些最新的模型开始采用双VAE架构,分别处理静态外观和动态运动信息,这种分工合作的方式能够显著提升处理效率。
在注意力机制设计上,早期的方法直接将2D UNet扩展为3D UNet,但这种简单粗暴的做法往往效果有限。新一代模型采用了更加精巧的设计:空间层负责处理每一帧内的信息,时间层负责连接不同帧之间的关系。Seedance等顶级模型还引入了窗口化注意力机制,将帧序列分割成小窗口进行处理,在保证效果的同时大幅提升了计算效率。
位置编码看似是一个技术细节,但实际上对模型性能有着重要影响。传统的正弦位置编码已经逐渐被3D旋转位置编码(3D RoPE)所替代。这种新的编码方式能够更好地表示3D空间中的位置关系,特别是在处理相机运动和物体旋转时表现出色。Seedance还进一步发明了多模态RoPE(MM-RoPE),专门用于处理文本和视频的联合编码。
主干网络架构方面,Transformer已经全面超越了传统的UNet。研究团队特别推荐了MM-DiT(多模态扩散Transformer)和Flux-MM-DiT两种架构。MM-DiT采用双流设计,分别处理文本和视频信息,然后通过交叉注意力机制实现融合。Flux-MM-DiT则进一步引入了整流流残差模块,能够实现一步采样,大幅减少推理时间。
提示词增强是一个容易被忽视但非常重要的环节。用户输入的提示词往往简短且模糊,而训练数据中的描述通常详细而丰富,这种分布差异会严重影响生成效果。先进的模型会使用大语言模型对用户输入进行扩展和重写,将"一个人在跑步"这样的简单描述扩展成"一位身穿蓝色运动装的年轻男子,在阳光明媚的公园小径上轻松慢跑,背景中有绿树成荫,微风轻拂"这样的详细描述。
故事代理(Story Agent)是长视频生成中的"导演"角色。它负责将用户的故事想法分解成具体的场景和镜头,确保整个视频在叙事上的连贯性。这个组件会考虑角色一致性、场景转换、镜头衔接等电影制作中的各种要素,就像一个专业的电影导演在规划每一个镜头。
三、数据集现状与评估挑战:巧妇难为无米之炊
在视频生成领域,数据就是"原材料",而目前这个领域正面临着严重的"原材料短缺"问题。研究团队的调查显示,几乎所有高质量的视频数据集都存在商业使用限制,这就像是想学习厨艺,但所有优质食材都需要昂贵的会员资格才能获取。
网络规模的数据集如Koala-36M、WebVid-10M、Panda-70M等,虽然包含了超过2.5亿个视频片段,但由于来源复杂,标注质量参差不齐,而且大多数都有严格的商业使用限制。这些数据集就像是从网上随机收集的菜谱,虽然数量庞大,但质量难以保证,有些甚至是错误的。
高清人物中心数据集如CelebV-HQ、OpenHumanVid等提供了更好的质量控制,包含了人脸跟踪、骨骼关键点、相机运动标签等详细信息。然而,这些数据集中的大多数视频时长都在20秒以内,对于长视频训练来说仍然不够。
最有前景的是一些新兴的结构化数据集。MiraData提供1-2分钟的视频序列,配有详细的结构化描述,涵盖物体、动作、风格和相机运动等各个方面。MovieBench更是开创性地提供了电影级别的分层标注,包括电影、场景、镜头三个层次,强调角色一致性和多场景叙事能力。这些数据集就像是专业厨师精心编写的食谱,不仅提供了详细的制作步骤,还包含了各种细节和技巧。
在评估方法方面,传统的图像评估指标如FID、SSIM等已经无法满足视频评估的需求。这些指标就像是用测量照片质量的标准来评价电影,显然是不合适的。视频评估需要考虑时间连贯性、运动平滑性、角色一致性等多个维度。
VBench评估体系的出现填补了这个空白。这个评估框架将"视频生成质量"分解为多个细粒度维度,包括视觉质量、运动平滑性、身份一致性、时间闪烁、空间关系和文本-视频相关性等。每个维度都有专门设计的测试集和人类偏好验证,就像是为视频质量建立了一套完整的"体检标准"。
研究团队还发现了一个有趣的现象:许多声称性能优秀的模型在单一指标上确实表现出色,但在综合评估中却暴露出明显短板。这就像是一个在某项考试中得高分的学生,在综合素质评价中却表现平平。这种现象提醒研究者,单纯追求某个指标的优化可能导致模型在其他方面的退化。
四、技术趋势与未来展望:长视频生成的明天
通过对32篇相关论文的深入分析,研究团队总结出了当前长视频生成领域的几个重要趋势,这些趋势就像是技术发展的"风向标",指引着未来的研究方向。
首先是架构选择的趋势。MM-DiT和Flux-MM-DiT已经成为新一代模型的标准配置,传统的UNet架构正在被逐步淘汰。这种转变就像是从马车时代进入汽车时代,不仅是技术的升级,更是整个范式的转换。双流设计允许模型分别处理文本和视频信息,然后通过精心设计的交叉注意力机制实现深度融合,这种架构在处理复杂多模态信息时展现出明显优势。
训练目标方面,流匹配已经基本取代了传统的DDIM和DDPM方法,成为主流选择。而MeanFlow这种新兴方法更是展现出巨大潜力,不仅在生成质量上有所提升,更重要的是大幅减少了推理时间。这种发展趋势表明,未来的研究将更加注重效率和质量的平衡。
在文本编码方面,多模态大语言模型正在逐步替代传统的T5编码器。这种变化反映了整个AI领域的大趋势,即从专用模型向通用模型的转变。MLLM不仅能更好地理解文本语义,还能处理多模态信息,为视频生成提供更丰富的语义指导。
位置编码技术也在快速演进。3D RoPE已经成为标准配置,而MM-RoPE这种多模态位置编码技术更是代表了未来的发展方向。这些技术创新看似微小,但对模型性能的提升却是显著的,特别是在处理长序列和复杂空间关系时。
然而,当前技术仍面临诸多挑战。计算资源需求仍然是最大的瓶颈,限制了模型规模和视频长度的进一步扩展。开源长视频数据集的匮乏严重制约了研究进展,现有数据集缺乏关键元数据如相机运动、角色关系等信息。时间连贯性问题依然存在,特别是在长序列中,帧与帧之间的连续性容易出现断裂。多主体建模仍然困难,在涉及多个角色的场景中,身份一致性和交互真实性都面临挑战。
针对这些挑战,研究团队提出了一系列解决方案。在数据方面,他们呼吁构建更多开源长视频数据集,并建立包含叙事段落、电影技法、角色属性和交互图谱四个关键维度的分层元数据标注体系。在技术方面,他们建议通过量化和剪枝技术来降低计算资源需求,使用模型蒸馏从大模型中学习经验,集成提示词增强模块来改善生成质量。
在应用层面,研究团队建议将提示词分解为故事叙述和具体场景两个层次,使用多适配器架构来保持角色一致性,在时空注意力中重复参考图像信息来增强身份记忆。这些建议虽然看似技术性很强,但实际上都是为了解决用户在实际使用中遇到的具体问题。
研究团队还指出了几个值得关注的新兴方向。首先是故事驱动的视频生成,这种方法不仅生成视频内容,还要确保叙事的连贯性和逻辑性。其次是交互式视频编辑,允许用户在生成过程中实时调整和修改内容。第三是跨模态条件生成,不仅支持文本输入,还能结合音频、草图等多种输入形式。
从长远来看,长视频生成技术的发展将深刻改变内容创作的方式。教育领域可能出现个性化的教学视频,营销行业能够快速制作定制化的宣传内容,娱乐产业可能迎来新的创作模式。但同时,这些技术也带来了新的挑战,包括版权保护、内容真实性验证、伦理和法律问题等。
研究团队强调,虽然闭源商业模型在性能上仍然领先,但开源社区的快速发展令人鼓舞。像HunyuanVideo、WAN2.1这样的开源模型已经能够生成相当高质量的视频内容,随着技术的不断进步和数据集的不断完善,开源方案有望在不久的将来实现对商业模型的追赶甚至超越。
说到底,这项研究为我们描绘了长视频生成技术的全景图,既展示了当前的技术成就,也指出了未来的发展方向。虽然距离真正成熟的长视频生成技术还有一段路要走,但研究团队的工作为这个领域提供了宝贵的指导和参考。对于普通用户来说,这意味着在不久的将来,我们可能真的能够仅通过简单的文字描述,就生成出电影级别的长视频内容,这将彻底改变我们创作和消费视频内容的方式。
当然,技术的发展永远不是一帆风顺的,长视频生成领域也不例外。但正如这项研究所展示的,通过系统性的分析、合理的架构设计和不断的技术创新,我们正在逐步接近这个看似遥不可及的目标。对于那些对AI技术发展感兴趣的读者,有兴趣深入了解的可以通过论文标题"A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality"在arXiv平台搜索获取完整论文,相信会从中获得更多深入的技术洞察。
Q&A
Q1:当前AI视频生成为什么只能做几秒钟的短视频? A:主要面临三个核心挑战:计算资源限制、时间连贯性维护困难,以及高质量训练数据不足。就像拼一个巨大拼图,片段越多,保持整体协调性的难度呈指数级增长。超过16秒后,角色容易变形,场景会突然切换,画面开始"抽风"。
Q2:长视频生成技术什么时候能够普及应用? A:根据研究趋势,预计2-3年内会有重大突破。目前像HunyuanVideo、Seedance等模型已经能生成相对稳定的长视频,但距离电影级别的质量还需要解决计算效率、数据集质量和多角色一致性等关键问题。开源方案正在快速追赶商业模型。
Q3:普通人将来能用这种技术做什么? A:未来可以通过简单文字描述制作个人电影、教学视频、营销内容等。想象一下,只需输入"一个关于太空探险的5分钟科幻故事",AI就能生成完整的电影级视频。这将彻底改变内容创作方式,让每个人都能成为"导演"。
夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频

近期,夸克技术团队和浙江大学联合开源了OmniAvatar,这是一个创新的音频驱动全身视频生成模型,只需要输入一张图片和一段音频,OmniAvatar即可生成相应视频,且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外,还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。
OmniAvatar已开源:
Model:https://huggingface.co/OmniAvatar/OmniAvatar-14BCode:https://github.com/Omni-Avatar/OmniAvatarArxiv:https://arxiv.org/abs/2506.18866Project Page:https://omni-avatar.github.io/以下,是OmniAvatar在播客、唱歌、交互、动态背景等场景下的部分案例。

https://mp.weixin.qq.com/s/kSuN83WsDsQYmNs89e_wdg
实验表明,OmniAvatar在唇形同步、面部及半身视频生成、文本控制等多个维度上,均取得领先表现,并更好地平衡了视频质量、准确度、审美三要素。


此外,OmniAvatar专门针对长视频生成进行了优化,可以更好地保持人物一致性和时间连贯性。
模型能力
图片+音频=全身视频
当前,音频驱动人体运动的技术已取得显著进展,但大多数方法仍集中在面部运动,缺乏全身驱动的能力,且难以进行精确的提示词控制。
OmniAvatar以Wan2.1-T2V-14B为基础模型,利用LoRA方法进行微调,有效地引入了音频特征。这种结合不仅保留了Wan2.1-T2V-14B在视频生成方面的强大能力,还提高了模型对音频输入的适应性和生成质量。

OmniAvatar架构图
接下来,我们将通过一些具体案例,更详细地展示模型在多种场景下的能力。
OmniAvatar能够根据输入的音频和提示词,生成虚拟人物视频,其中,人物的唇形运动与音频内容吻合,场景则反映了提示词内容:
视频加载中...
通过调整提示词,还可实现对人物情绪的精确控制:
视频加载中...
在带有镜头运动的场景中,OmniAvatar仍能够保持面部、动作和背景的自然流畅,展现了模型在动态场景下的强大适应能力:
视频加载中...
对于长视频生成,OmniAvatar通过参考图像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性:
视频加载中...
像素级多层次音频嵌入策略
精准唇部运动+自然肢体动作
大多数现有方法通常依赖交叉注意力机制来引入音频特征,虽然效果良好,但会引入大量额外的计算开销,并且容易过度关注音频与面部特征之间的关系。
针对这一问题,团队提出了一种基于像素的音频嵌入策略,使音频特征可以直接在模型的潜在空间中以像素级的方式融入。通过这一方法,不仅可以自然地将唇部运动与音频内容对齐,还能够确保音频信息在整个视频像素中均匀分布,从而使模型生成更协调、更自然的身体动作来匹配音频。
该策略首先使用Wav2Vec2模型提取音频特征,然后对这些特征进行分组打包和压缩,再通过音频打包模块映射到视频的潜在空间中。

接下来,为了确保模型在深层网络中能有效地学习和保留音频特征,OmniAvatar采用了一种多层级音频嵌入策略,将音频信息嵌入到DiT模块的不同阶段中。为防止音频特征对潜在空间产生过度干扰,音频嵌入仅应用于模型的第二层至中间层之间的模块 。此外,这些层的权重不共享,使模型能够在不同层次上保持独立的学习路径。
基于LoRA的优化策略
平衡微调,兼顾质量与细节
目前,针对音频条件扩散模型的方法主要遵循两种策略:一种是训练完整的模型,另一种是仅微调特定层。
在进行完整训练时,团队发现更新所有层反而会导致模型生成的连贯性和视频质量下降。具体来看,由于模型过度拟合人类语音数据集,导致泛化能力差,容易生成不切实际或静态的内容,难以捕捉细节。但另一方面,仅微调和音频特征相关的层会导致音频和视频之间的对齐效果差,唇形同步性能受损。

效果对比
为了解决这些挑战,团队提出了一种基于LoRA的平衡微调策略。该策略不同于以上两种方法,而是使用LoRA策略高效地适应模型。LoRA通过在注意力和前向传播(FFN)层的权重更新中引入低秩矩阵,使模型能够在不改变底层模型容量的情况下学习音频特征。
长视频生成
身份保留+时间一致性
长视频连续生成是音频驱动视频生成的难点,也是一项关键挑战。为此,团队提出了参考图嵌入和重叠帧策略,以实现人物的身份保留和时间一致性。

代码示例
身份保留。OmniAvatar引入了一个参考帧,作为人物身份的固定指导。具体来看,首先需提取参考帧的潜在表示;然后将这些表示多次重复,使其长度与视频帧数匹配;接下来,再在每个时间步,将这个重复的参考帧潜在表示与视频潜在表示进行连接。因此,通过参考帧设计,可有效锚定人物身份,确保在整个长视频序列中的人物一致性。
时间一致性。为了实现无缝的视频连续性,OmniAvatar采用了一种潜在重叠策略。首先,在训练时使用单帧和多帧前缀潜在变量的组合进行训练;其次,在推理过程中,对于第一批的帧,参考帧既作为前缀潜在变量,又作为身份指导;对于后续批次,则用前一组的最后帧作为潜在变量,参考帧仍保持固定用作身份指导。
One More Thing
OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多场景中的应用。
相关问答
肿么把一张长图做成滚动视频?-ZOL问答
制作一张长图滚动视频是一种很有趣的表现方式,可以让图片更加生动,下面我们以华为P20手机为例介绍如何制作。首先需要使用手机上的第三方软件“剪映”来进行操...
如何把视频尺寸变长?
视频的任何修改操作都是需要在视频制作过程中进行修改调整尺寸,变尺寸在视频调整的时候点击视频修正,然后根据自己的想法进行修改视频窗口,尺寸变长的话体验效...
如何编辑视频长度?
要编辑视频长度,需要使用视频编辑软件,如AdobePremierePro或FinalCutPro。首先需要导入要编辑的视频片段,然后将其拖到时间轴中。在时间轴中,可以使用...
抖音怎么编辑视频长短本地视频编辑方法一览?
本地拍摄的视频可以根据自己想要的效果进行剪辑,直接拍的话,在拍摄的时候就可以选择自己想要的效果,所以不用剪辑。1...2.导入需要编辑的视频文件。3.选择...
视频长度如何修改?
您可以使用视频编辑软件进行操作。以下是一些常见的方法:剪辑视频:使用视频编辑软件中的剪辑工具,将视频的一部分删除或裁剪。这样可以缩...要修改视频的长...
相册怎么编辑视频长短?
将手机里的视频剪辑短一点的操作方法如下首先我们打开手机,在手机桌面上找到相册图标,点击图标就能到相册页面在页面中,我们打开视频在视频页面,我们点...
抖音几个视频拼在一起怎么各个都只有只有两三秒了,怎么调长?...
点击视频后,修改视频的长度,达到自己想要的效果,详细步骤:1、首先打开抖音,选择录制,一个视频。2、在录制的界面,选择上传。3、上传的时候选择多个文件,这里...
剪映怎么把长视频缩短?
打开剪映选择要编辑的视频,①点击选中的视频,②工具栏会显示变速,点击变速,③选中常规变速或者曲线变速,看自己选择哈,④然后工具栏会出现数字,选择你...打开...
剪映一键成片怎么调时间长短?
1.点击剪辑首先我们将视频导入软件后,点击剪辑。2.点击变速其次我们进入到剪辑页面后,点击变速。3.点击常规变速接着我们进入到变速页面,点击常规变速。...
抖音怎样用一张照片发三分钟?
具体步骤如下:1.开启抖音,点击下方加号图标。2.选择一张照片,分段拍后,找到3分钟。3.对视频进行剪辑后,进行发布即可。具体步骤如下:1.开启抖音,点击下方加...