阿里云万相视频生成开源大模型

下载中心
2月26日
编辑

主机帮主机邦站长

阿里万相视频生成开源大模型是阿里云于2025年2月25日晚间宣布开源的视觉生成基座模型万相2.1（Wan），以下是其具体介绍：

目录

开源信息及平台

开源时间：2025年2月25日晚间。
开源协议：采用最宽松的Apache 2.0协议。
下载平台：全球开发者可在Github、HuggingFace和魔搭社区下载体验。

模型参数规格

14B版本：在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出，在权威评测集Vbench中，以总分86.22%的成绩超越Sora、Luma、Pika等国内外模型，位居榜首。
1.3B版本：测试结果不仅超过了更大尺寸的开源模型，甚至还接近部分闭源模型，能在消费级显卡运行，仅需8.2GB显存就可以生成480P视频，适用于二次模型开发和学术研究。

技术架构与优势

算法设计：基于主流DiT架构和线性噪声轨迹Flow Matching范式，研发了高效的因果3D VAE、可扩展的预训练策略等。以3D VAE为例，为了高效支持任意长度视频的编码和解码，万相在3D VAE的因果卷积模块中实现了特征缓存机制，从而代替直接对长视频端到端的编解码过程，实现了无限长1080P视频的高效编解码。此外，通过将空间降采样压缩提前，在不损失性能的情况下进一步减少了29%的推理时内存占用。
性能表现：在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中，万相均达到了业界领先表现，并且斩获5项第一。
功能特点：支持基于文本生成视频和图像生成视频任务，能够精准模拟现实世界的物理规律，如雨滴溅起水花、冰刀划开冰渣等，且在处理复杂运动时能保持肢体的协调性和运动轨迹的真实性。

应用场景

影视创作：可以生成影视级高清视频，轻松生成超酷炫的电影级片头，降低影视特效制作成本。
广告设计：提高广告创意效率，实现一键生成动态字幕、智能运镜等功能。
电商直播：降低商品展示视频制作成本，支持中英文混合特效，提升营销效果。

源地址：

Github：https://github.com/Wan-Video
HuggingFace：https://huggingface.co/Wan-AI
魔搭社区：https://modelscope.cn/organization/Wan-AI

阿里云万相视频生成开源大模型插图

给TA打赏

共{{data.count}}人

人已打赏

视频生成大模型阿里阿里云

0 条回复 A文章作者 M管理员

暂无讨论，说说你的看法吧

在线客服

主机邦

我们将24小时内回复。

2025-04-16 14:12:14

您好，有任何疑问请与我们联系！

您的工单我们已经收到，我们将会尽快跟您联系！

[QQ客服]

176363189

suduwangluo

[小黄]

17307799197

[企业邮箱]

sudu@yunjiasu.cc

选择聊天工具：