#音频驱动

⁣
📰 重磅开源！通义万相最新模型来了

通义万相最新发布的音频驱动视频模型Wan2.2-S2V，实现了仅用一张图片和一段音频生成电影级数字人视频。该模型生成的视频时长可达分钟级，显著提高了数字人直播、影视制作及AI教育等行业的视频创作效率。用户可在多个平台上下载并体验此模型，支持多种类型图片及音频驱动的复杂场景表现。

Wan2.2-S2V通过层次化帧压缩技术，实现稳定的长视频生成，历史帧的Token数量大幅降低，长度可拓展至73帧。此外，模型还支持文本控制，用户可通过输入Prompt对视频画面进行精准调整，丰富视频主体的运动及背景变化，确保生成视频的真实感和表现力。

在训练上，通义团队使用超过60万个片段的音视频数据集进行全参数化训练，充分挖掘模型性能，并支持多种分辨率场景，满足不同视频生成需求。该产品为企业提供创新解决方案，承诺在效果达标后再合作，旨在实现零风险应用。

🏷️ #音频驱动 #视频生成 #数字人 #长视频 #文本控制

🔗 原文链接