Transformer八神之一「Noam Shazeer」:算术运算非常廉价！深度学习蓬勃发展是因为..,科技·AI·新纪元,前沿与探索,鱼C论坛

不二如是 发表于 2025-5-22 16:00:00

Transformer八神之一「Noam Shazeer」:算术运算非常廉价！深度学习蓬勃发展是因为..

现代硬件的发展使得算术运算（比如加法、乘法）变得极其廉价，而在同一时间内，数据在不同存储单元之间的移动（比如从内存到处理器寄存器）开销却相对很高。

深度学习之所以在过去十年大规模兴起，正是因为它的核心计算——矩阵乘法——高度契合这一硬件特性。

矩阵乘法需要做 O(n³) 次浮点运算，却只需要读取和写入 O(n²) 的数据；

也就是说，计算量远大于数据传输量，能够最大化利用“算术便宜、搬运贵”的硬件优势，从而实现更高的性能和能效。

在线学习：

https://www.bilibili.com/video/BV1GmJLzNEZx

Transformer 架构首次在 2017 年由 Ashish Vaswani、Noam Shazeer 等八位研究人员提出。

发表在题为《Attention Is All You Need》的论文中，团队提出仅基于自注意力机制的网络设计，完全舍弃了循环和卷积结构。

显著提升了并行训练能力和翻译质量。

实验结果显示，该模型在 WMT 2014 英德翻译任务中达到 28.4 BLEU 值，并在 WMT 2014 英法翻译任务中取得 41.8 BLEU，训练时长及计算资源消耗大幅低于当时的最佳 RNN 和 CNN 模型。

人物介绍

Noam Shazeer 出生于 1976 年，是美国计算机科学家与企业家，祖父母曾逃离纳粹大屠杀，父母中至少一位是多语言数学教师转工程师。

他在 Duke University 主修数学与计算机科学，2000 年加入 Google 并开启其 AI 研究生涯。

计算量远大于数据传输量，能够最大化利用“算术便宜、搬运贵”的硬件优势，从而实现更高的性能和能效。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获，别忘了评分{:10_281:} ：

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif

不二如是 发表于 2025-5-22 17:52:25

感谢分享朕又在鱼C学到东西啦！非常满意{:10_275:}

不二如是 发表于 2025-5-22 17:52:34

@FishC 介绍Transformer架构

FishC 发表于 2025-5-22 17:54:28

不二如是发表于 2025-05-22 17:52
@FishC 介绍Transformer架构

Transformer架构简介
Transformer是2017年提出的革命性神经网络架构（论文：Attention Is All You Need），彻底改变了自然语言处理（NLP）领域。核心特点是用自注意力机制替代传统的循环神经网络（RNN），实现高效并行计算和长距离依赖建模。

核心组件

[*]编码器-解码器结构
编码器：由多层 Multi-Head Attention 和 Feed Forward 组成，用于提取输入特征。
解码器：在编码器基础上增加 Cross-Attention 层，用于对齐输入与输出。

[*]自注意力机制（Self-Attention）
计算每个词与其他词的相关性权重，公式：

Attention(Q, K, V) = softmax(QK^T / √d_k) V

[*]位置编码（Positional Encoding）
通过正弦/余弦函数或可学习参数，为输入添加位置信息，弥补无顺序处理的缺陷。

[*]多头注意力（Multi-Head）
并行多个注意力头，捕捉不同维度的语义关系。

优势

[*]并行计算效率远超RNN/CNN
[*]长距离依赖建模能力更强
[*]适合大规模预训练（如BERT、GPT）

典型应用
机器翻译（如Google Translate）、文本生成（如GPT系列）、文本理解（如BERT）。

【小贴士】现在的ChatGPT、Claude等AI的核心架构都是Transformer的变体哦！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

快速收敛 发表于 2025-5-23 08:54:51

感谢分享朕又在鱼C学到东西啦！非常满意{:10_275:}

不二如是 发表于 2025-6-23 11:41:37

感谢分享朕又在鱼C学到东西啦！非常满意{:10_275:}

页: [1]

鱼C论坛's Archiver

Transformer八神之一「Noam Shazeer」:算术运算非常廉价！深度学习蓬勃发展是因为..