NEWS

阿里开源通义万相Wan2.2

2025.08.14火猫网络阅读量: 39

阿里开源电影级视频生成模型通义万相Wan2.2

7月28日晚间,阿里巴巴旗下阿里云正式开源电影级视频生成模型「通义万相Wan2.2」,引发AI领域广泛关注。此次开源涵盖三款核心模型,分别为文生视频模型(Wan2.2-T2V-A14B)、图生视频模型(Wan2.2-I2V-A14B)及统一视频生成模型(Wan2.2-TI2V-5B),其中前两者为业界首个采用MoE架构的视频生成模型,进一步推动AI视频创作从专业领域走向大众化。

技术突破:MoE架构与电影美学控制系统

通义万相Wan2.2在技术上实现多重创新:

  • MoE架构优化效率:文生/图生模型总参数量达27B,激活参数仅14B,通过「高噪声专家模型+低噪专家模型」双专家分工,分别负责视频整体布局与细节完善,在同参数规模下节省约50%计算资源,解决长视频生成的算力瓶颈。
  • 电影级美学控制:首创「电影美学控制系统」,集成光影、色彩、构图、镜头角度等60+可控参数,用户输入关键词即可精准调控画面风格。例如,「雨夜、逆光、蓝绿色调」可生成情绪张力的都市夜景,「清晨、暖光、浅景深」则呈现温情家庭场景,实现从「猜画面」到「懂创作」的跨越。
  • 高压缩3D VAE技术:5B小模型采用4×16×16时空压缩比,信息压缩率提升4倍,仅需22G显存(单张消费级显卡如RTX 4090)即可在数分钟内生成5秒720P高清视频,普通用户也能体验云端级效果。

模型能力与应用场景

Wan2.2单次可生成5秒高清视频,支持多轮提示词迭代优化,满足短剧制作、广告创意、影视分镜等场景需求。例如,输入《星际穿越》经典场景描述,模型可精准还原宇航员在米勒星球的画面质感;输入「黑人女性在黄昏地铁中静止画面」,能生成符合现实主义风格的文艺视频。未来,团队计划进一步延长单次生成时长,拓展更长叙事场景。

开源渠道与生态支持

三款模型已全面开放,开发者可通过以下渠道获取:

此外,模型兼容FP8量化、LoRA训练、ComfyUI及Diffusers生态,支持开发者快速集成与二次开发,降低AI视频创作门槛。

行业意义

作为阿里继Qwen2大模型后又一重磅开源成果,通义万相Wan2.2不仅推动视频生成技术向「电影级」「实用化」迈进,更通过开源生态吸引全球开发者参与优化。自2025年2月以来,通义万相系列模型已累计下载超500万次,此次Wan2.2的发布将进一步加速AI视频创作的普及,为影视、广告、教育等行业注入新活力。

联系我们