Transformer八神之一「Noam Shazeer」:算术运算非常廉价!深度学习蓬勃发展是因为..
现代硬件的发展使得算术运算(比如加法、乘法)变得极其廉价,而在同一时间内,数据在不同存储单元之间的移动(比如从内存到处理器寄存器)开销却相对很高。
深度学习之所以在过去十年大规模兴起,正是因为它的核心计算——矩阵乘法——高度契合这一硬件特性。
矩阵乘法需要做 O(n³) 次浮点运算,却只需要读取和写入 O(n²) 的数据;
也就是说,计算量远大于数据传输量,能够最大化利用“算术便宜、搬运贵”的硬件优势,从而实现更高的性能和能效。
在线学习:
https://www.bilibili.com/video/BV1GmJLzNEZx
Transformer 架构首次在 2017 年由 Ashish Vaswani、Noam Shazeer 等八位研究人员提出。
发表在题为《Attention Is All You Need》的论文中,团队提出仅基于自注意力机制的网络设计,完全舍弃了循环和卷积结构。
显著提升了并行训练能力和翻译质量。
实验结果显示,该模型在 WMT 2014 英德翻译任务中达到 28.4 BLEU 值,并在 WMT 2014 英法翻译任务中取得 41.8 BLEU,训练时长及计算资源消耗大幅低于当时的最佳 RNN 和 CNN 模型。
人物介绍
Noam Shazeer 出生于 1976 年,是美国计算机科学家与企业家,祖父母曾逃离纳粹大屠杀,父母中至少一位是多语言数学教师转工程师。
他在 Duke University 主修数学与计算机科学,2000 年加入 Google 并开启其 AI 研究生涯。
计算量远大于数据传输量,能够最大化利用“算术便宜、搬运贵”的硬件优势,从而实现更高的性能和能效。
评论区聊聊你的想法吧{:10_330:}
https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png
>>万能兑换C币许愿池<<
如果有收获,别忘了评分{:10_281:} :
https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif 感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:} @FishC 介绍Transformer架构 不二如是 发表于 2025-05-22 17:52
@FishC 介绍Transformer架构
Transformer架构简介
Transformer是2017年提出的革命性神经网络架构(论文:Attention Is All You Need),彻底改变了自然语言处理(NLP)领域。核心特点是用自注意力机制替代传统的循环神经网络(RNN),实现高效并行计算和长距离依赖建模。
核心组件
[*]编码器-解码器结构
编码器:由多层 Multi-Head Attention 和 Feed Forward 组成,用于提取输入特征。
解码器:在编码器基础上增加 Cross-Attention 层,用于对齐输入与输出。
[*]自注意力机制(Self-Attention)
计算每个词与其他词的相关性权重,公式:
Attention(Q, K, V) = softmax(QK^T / √d_k) V
[*]位置编码(Positional Encoding)
通过正弦/余弦函数或可学习参数,为输入添加位置信息,弥补无顺序处理的缺陷。
[*]多头注意力(Multi-Head)
并行多个注意力头,捕捉不同维度的语义关系。
优势
[*]并行计算效率远超RNN/CNN
[*]长距离依赖建模能力更强
[*]适合大规模预训练(如BERT、GPT)
典型应用
机器翻译(如Google Translate)、文本生成(如GPT系列)、文本理解(如BERT)。
【小贴士】现在的ChatGPT、Claude等AI的核心架构都是Transformer的变体哦!
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}
页:
[1]