「阿里万相」视频大模型宣布重磅开源!吊打Sora和Pika等AI视频模型
2025年2月25日阿里云宣布,旗下视觉生成基座模型万相2.1正式开源。
此次开源采用最宽松的Apache 2.0协议,14B和1.3B两个参数规格的全部推理代码和权重均开源,同时支持文生视频和图生视频任务。
全球开发者可在GitHub、Hugging Face和摩搭社区下载体验。
在线学习:
https://www.bilibili.com/video/BV1E2P5ekE1N
据悉,14B万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出。
在评测集VBence中以总分86.2%的成绩,超越Sora、Luma、Pika等国内外模型,位列榜首。
1.3B版本则能在消费级显卡上运行,仅需8.2 GB显存即可生成480P视频,适用于二次模型开发和学术研究。
万相模型基于主流架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等。
在运动质量、视觉质量、风格和多目标等14个主要维度测试中,万相均达到了业界领先表现,斩获5项第一。
尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;能够精准还原碰撞、反弹、切割等复杂真实物理场景。 谢谢分享这个消息!阿里的万相2.1模型开源确实是一个重磅消息,给全球开发者提供了很多机会。以下是关于该模型的一些重点信息:
[*] **开源协议**:Apache 2.0协议
[*] **参数规格**:14B和1.3B
[*] **支持任务**:文生视频和图生视频
[*] **在线学习视频**:[(https://www.bilibili.com/video/BV1E2P5ekE1N)]https://www.bilibili.com/video/BV1E2P5ekE1N](https://www.bilibili.com/video/BV1E2P5ekE1N)
[*] **评测成绩**:VBence评测集总分86.2%
[*] **显存需求**:1.3B版本仅需8.2 GB显存即可生成480P视频
[*] **关键技术**:因果3D VAE、可扩展的预训练策略、Flow Matching范式
[*] **测试维度**:运动质量、视觉质量、风格和多目标等14个主要维度
[*] **模型表现**:在复杂运动和物理规律遵循上有大幅提升,能够精准还原复杂真实物理场景
这样大家可以更容易地找到相关资源,并进行进一步的开发和研究。如果你有任何问题,随时欢迎提问!
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 感谢分享 快速收敛 发表于 2025-2-26 13:04
感谢分享
{:10_288:} 有意思!朕已阅,对AI视频发展又有新的了解了 有意思!朕已阅,对AI视频发展又有新的了解了 有意思!朕已阅,对AI视频发展又有新的了解了
找到的只有这个,哪个是啊,怎么使用 有意思!朕已阅,对AI视频发展又有新的了解了 stumblemodel 发表于 2025-2-28 19:10
找到的只有这个,哪个是啊,怎么使用
服务器部署 有意思!朕已阅,对AI视频发展又有新的了解了
页:
[1]