不二如是 发表于 2025-5-22 16:00:00

Transformer八神之一「Noam Shazeer」:算术运算非常廉价!深度学习蓬勃发展是因为..



现代硬件的发展使得算术运算(比如加法、乘法)变得极其廉价,而在同一时间内,数据在不同存储单元之间的移动(比如从内存到处理器寄存器)开销却相对很高。

深度学习之所以在过去十年大规模兴起,正是因为它的核心计算——矩阵乘法——高度契合这一硬件特性。

矩阵乘法需要做 O(n³) 次浮点运算,却只需要读取和写入 O(n²) 的数据;

也就是说,计算量远大于数据传输量,能够最大化利用“算术便宜、搬运贵”的硬件优势,从而实现更高的性能和能效。

在线学习:

https://www.bilibili.com/video/BV1GmJLzNEZx

Transformer 架构首次在 2017 年由 Ashish Vaswani、Noam Shazeer 等八位研究人员提出。

发表在题为《Attention Is All You Need》的论文中,团队提出仅基于自注意力机制的网络设计,完全舍弃了循环和卷积结构。

显著提升了并行训练能力和翻译质量。

实验结果显示,该模型在 WMT 2014 英德翻译任务中达到 28.4 BLEU 值,并在 WMT 2014 英法翻译任务中取得 41.8 BLEU,训练时长及计算资源消耗大幅低于当时的最佳 RNN 和 CNN 模型。


人物介绍

Noam Shazeer 出生于 1976 年,是美国计算机科学家与企业家,祖父母曾逃离纳粹大屠杀,父母中至少一位是多语言数学教师转工程师。

他在 Duke University 主修数学与计算机科学,2000 年加入 Google 并开启其 AI 研究生涯。

计算量远大于数据传输量,能够最大化利用“算术便宜、搬运贵”的硬件优势,从而实现更高的性能和能效。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获,别忘了评分{:10_281:} :

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif                                                                  

不二如是 发表于 2025-5-22 17:52:25

感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}

不二如是 发表于 2025-5-22 17:52:34

@FishC 介绍Transformer架构

FishC 发表于 2025-5-22 17:54:28

不二如是 发表于 2025-05-22 17:52
@FishC 介绍Transformer架构

Transformer架构简介
Transformer是2017年提出的革命性神经网络架构(论文:Attention Is All You Need),彻底改变了自然语言处理(NLP)领域。核心特点是用自注意力机制替代传统的循环神经网络(RNN),实现高效并行计算和长距离依赖建模。

核心组件

[*]编码器-解码器结构
编码器:由多层 Multi-Head Attention 和 Feed Forward 组成,用于提取输入特征。
解码器:在编码器基础上增加 Cross-Attention 层,用于对齐输入与输出。

[*]自注意力机制(Self-Attention)
计算每个词与其他词的相关性权重,公式:

Attention(Q, K, V) = softmax(QK^T / √d_k) V


[*]位置编码(Positional Encoding)
通过正弦/余弦函数或可学习参数,为输入添加位置信息,弥补无顺序处理的缺陷。

[*]多头注意力(Multi-Head)
并行多个注意力头,捕捉不同维度的语义关系。


优势

[*]并行计算效率远超RNN/CNN
[*]长距离依赖建模能力更强
[*]适合大规模预训练(如BERT、GPT)


典型应用
机器翻译(如Google Translate)、文本生成(如GPT系列)、文本理解(如BERT)。

【小贴士】现在的ChatGPT、Claude等AI的核心架构都是Transformer的变体哦!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

快速收敛 发表于 2025-5-23 08:54:51

感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}
页: [1]
查看完整版本: Transformer八神之一「Noam Shazeer」:算术运算非常廉价!深度学习蓬勃发展是因为..