阿里云万相视频生成开源大模型

阿里万相视频生成开源大模型是阿里云于2025年2月25日晚间宣布开源的视觉生成基座模型万相2.1(Wan),以下是其具体介绍:

开源信息及平台

  • 开源时间:2025年2月25日晚间。
  • 开源协议:采用最宽松的Apache 2.0协议。
  • 下载平台:全球开发者可在Github、HuggingFace和魔搭社区下载体验。

模型参数规格

  • 14B版本:在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集Vbench中,以总分86.22%的成绩超越Sora、Luma、Pika等国内外模型,位居榜首。
  • 1.3B版本:测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,能在消费级显卡运行,仅需8.2GB显存就可以生成480P视频,适用于二次模型开发和学术研究。

技术架构与优势

  • 算法设计:基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等。以3D VAE为例,为了高效支持任意长度视频的编码和解码,万相在3D VAE的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长1080P视频的高效编解码。此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用。
  • 性能表现:在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中,万相均达到了业界领先表现,并且斩获5项第一。
  • 功能特点:支持基于文本生成视频和图像生成视频任务,能够精准模拟现实世界的物理规律,如雨滴溅起水花、冰刀划开冰渣等,且在处理复杂运动时能保持肢体的协调性和运动轨迹的真实性。

应用场景

  • 影视创作:可以生成影视级高清视频,轻松生成超酷炫的电影级片头,降低影视特效制作成本。
  • 广告设计:提高广告创意效率,实现一键生成动态字幕、智能运镜等功能。
  • 电商直播:降低商品展示视频制作成本,支持中英文混合特效,提升营销效果。

源地址:

阿里云万相视频生成开源大模型插图

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
在线客服
主机邦
我们将24小时内回复。
2025-03-26 21:00:13
您好,有任何疑问请与我们联系!
您的工单我们已经收到,我们将会尽快跟您联系!
[QQ客服]
176363189
suduwangluo
[小黄]
17307799197
[企业邮箱]
sudu@yunjiasu.cc
取消

选择聊天工具: