鱼C-小师妹 发表于 2024-3-4 18:52:50

Sora基本原理解析



在线学习:

https://www.bilibili.com/video/BV1nH4y157TT

最近大家都在讨论 Sora,即使不太关注的小伙伴也可能已经在各种社交媒体上略有耳闻了。

Sora 的资讯满天飞,但是却很少看到有人讲 Sora 背后的技术原理,以及它到底和其他公司开发的视频生成AI模型有什么区别?

那它和其他的视频生成AI模型,比如 Pika,Runway 有什么不同呢?

接下来,就让小师妹我来给大家深入浅出的讲一下 Sora 背后的核心技术,看看你能听懂多少。

首先,我们得了解一下大语言模型LLM。

它是把各种形式的文本,包括自然语言、程序代码和数字拆解成基本的文本构建块,叫 Token。

然后以 Token 作为基本单位来进行大规模文本数据的训练和生成。

那么相对应的,Sora 它是把不同形式的视频和图像拆解成一个一个小的图像块,英文里面叫 Visual Patch。
类似的,Sora 也是以 Visual Patch 图像块为基本单位来进行大规模视频数据的训练和生成。

那我们再来看一下 Sora 的独特之处。

在它之前的其他视频生成AI中,通常只关注某个特定类别的视频数据,或者局限在较短的视频上,或者局限在固定大小的视频上。

比如他们会将所有的视频都拆解成 256×256 分辨率的标准尺寸的 4 秒视频来进行处理。

所以这种方法局限性很大,不够灵活。

而相比之下,Sora 它是一个视觉数据的通用模型,它可以生成不同时长、不同长宽比尺寸和不同分辨率的视频和图像。

千万不要小看了这个支持不同时长、尺寸和分辨率的特点,因为正是这一种灵活性使得 OpenAI 能够将所有类型的视觉数据转化为统一的表达方法,从而使得他们能够用网络上海量的视频数据去大规模的训练 Sora。

最后,我想说的是,**** Hidden Message *****
Sora 所有的属性和能力都是在大规模训练中自然产生的,纯粹是规模效应的现象。

这也表明了,如果未来我们想要开发更强大的物理和数字世界的模拟器,那么继续扩大视频AI模型的训练规模看起来是最有效的途径之一啦~

好了,现在你了解 Sora 的技术原理还有存在的技术壁垒了吗?

欢迎大家留言讨论{:10_297:}



hveagle 发表于 2024-3-4 18:57:12

3 分钟前

yinda_peng 发表于 2024-3-4 19:14:52

扩散模型,我们老师提到的

不二如是 发表于 2024-3-5 08:07:43

学起来

Mrhuj 发表于 2024-3-5 08:35:17

112233

kerln888 发表于 2024-3-5 08:35:24

学起来

wk012233 发表于 2024-3-5 08:52:01

学习

ty5777 发表于 2024-3-5 09:12:19

学废了,现在就去做sora2

鱼C-小师妹 发表于 2024-3-5 09:18:58

ty5777 发表于 2024-3-5 09:12
学废了,现在就去做sora2

{:10_334:}加油~我先预定个会员

易北川 发表于 2024-3-5 09:31:37

不应该是扩散模型吗

stanley_b 发表于 2024-3-5 10:52:44

好想看隐藏内容

快速收敛 发表于 2024-3-5 11:14:29

潜在空间

快速收敛 发表于 2024-3-5 11:15:41

{:10_254:}

gametsbug 发表于 2024-3-10 09:19:04

学习

快速收敛 发表于 2024-3-13 08:34:13

Sora Sora Sora

一箭琼华陨 发表于 2024-3-14 10:29:55


Sora Sora Sora

sfqxx 发表于 2024-3-15 21:00:29

1

suda_code 发表于 2024-3-16 15:24:44

不拿白不拿

kerln888 发表于 2024-3-16 22:56:36

学起来

kerln888 发表于 2024-3-16 22:57:07

{:10_258:}{:10_258:}让我拿个鱼币吧
页: [1] 2
查看完整版本: Sora基本原理解析