解锁多模态 AI 的力量:Step-Video-TI2V 模型革新图像到视频生成

CN
ComfyUI.org
2025-03-25 11:43:01

在今年2月,阶跃星辰开源了两款Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型,为开源社区贡献了自己的多模态力量。3月20日,阶跃星辰继续开源图生视频模型——Step-Video-TI2V,一款基于30B参数Step-Video-T2V训练的图生视频模型,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。与目前已有开源图生视频模型相比,Step-Video-TI2V不仅在参数规模上对该领域的研究提供了更高的上限,其运动幅度可控能力,更是能够平衡图生视频生成结果的动态性和稳定性,为创作者提供更为灵活的选择。

与此同时,Step-Video-TI2V已完成与华为昇腾计算平台的适配,并在魔乐社区(Modelers)上线,欢迎前往体验。Torch 昇腾适配链接:https://modelers.cn/models/StepFun/Step-Video-TI2V-NPUMindIE 适配链接:https://modelers.cn/models/MindIE/StepVideo-TI2V

两大技术亮点解析Step-Video-TI2V是如何炼成的

m8ofmd75vymhgaiwb111.png

相比文生视频模型Step-Video-T2V,此次开源的Step-Video-TI2V主要针对图生视频任务做了两大关键优化:

  1. 引入图像条件,提高一致性:为了让模型更好地理解输入的图片,Step-Video-TI2V没有采用传统的cross-attention方法,而是使用了更直接、更高效的方式,将该图像对应的向量表示和DiT第一帧对应的向量表示直接进行channel维度的拼接,这样生成的视频和原图才能更一致。

    m8ofmmhdzt3z3e8a178222.png
  2. 引入运动幅度控制,赋予用户更高自由度:在训练过程中,Step-Video-TI2V通过AdaLN模块引入视频动态性打分信息,特别训练模型学习了视频的动感程度。用户在生成时可以简单地指定不同的运动级别(motion = 2,5,10),精准控制视频的动态幅度,平衡视频的动态性、稳定性和一致性。此外,在数据优化方面,对于主体动作和镜头运动,我们进行了专项精准标注,使得Step-Video-TI2V在主体动态性和运镜效果上更具优势。在VBench-I2V基准测试中,Step-Video-TI2V取得了state-of-the-art级别的表现,并验证了动态性打分对生成视频稳定性和一致性的控制能力。

    m8ofmwmtwkbi9d5qxg3333.png

核心特点

  1. 运动幅度可控:动态&稳定自由切换
    Step-Video-TI2V支持控制视频的“运动幅度(motion)”,平衡图生视频内容的运动性和稳定性。无论是静态稳定画面,还是高动态动作场景,都能满足创作者需求。
    从左至右,运动幅度(motion)依次为:2/5/10/20,数值越大,动态性越强。视频生成时推荐 2、5、10 等数值。

  2. 多种运镜控制
    除了对镜头内主体运动的控制,Step-Video-TI2V支持对多种运镜的理解,可以对生成视频中的镜头运动进行精准控制,生成大片级运镜效果。从基本的推拉摇移、升降,到各种复杂的电影级运镜效果都能驾驭。

  3. 动漫效果尤佳
    Step-Video-TI2V在动漫类任务上的效果尤其优异,非常贴合动画创作、短视频制作等应用场景。

  4. 支持多尺寸生成
    Step-Video-TI2V支持多种尺寸图生视频,无论是横屏的宽阔视野,竖屏的沉浸体验,还是方屏的经典复古,都能轻松驾驭。用户可以根据不同的创作需求和平台特性,自由选择图片尺寸,无需担心画面变形或比例失调的问题。


欢迎体验
现在,Step-Video-TI2V 模型已正式开源!阶跃AI网页版和App端均已上线,欢迎立即体验!网页版直达:输入网址https://yuewen.cn/点击左边的【阶跃视频】即可体验;或者直接进入阶跃视频https://yuewen.cn/videos。App体验下载阶跃AI App,点击【视频创作】即可。此外,Step-Video-TI2V现在已初步具备一些特效生成能力,未来,还将通过 LoRA 等技术,持续解锁模型的特效潜力,敬请期待更多惊喜!模型及技术报告链接,可复制到浏览器查看:
GitHub:https://github.com/stepfun-ai/Step-Video-TI2V
GitHub-ComfyUI:https://github.com/stepfun-ai/ComfyUI-StepVideo
技术报告:https://arxiv.org/abs/2503.11251