鱼C论坛

 找回密码
 立即注册
查看: 41|回复: 3

[最新资讯] Transformer八神之一「Noam Shazeer」:算术运算非常廉价!深度学习蓬勃发展是因为..

[复制链接]
发表于 7 小时前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
d6254b8522c97118c66151a95fa99f73b1aca46a.jpg@308w_174h.jpeg

现代硬件的发展使得算术运算(比如加法、乘法)变得极其廉价,而在同一时间内,数据在不同存储单元之间的移动(比如从内存到处理器寄存器)开销却相对很高。

深度学习之所以在过去十年大规模兴起,正是因为它的核心计算——矩阵乘法——高度契合这一硬件特性。

矩阵乘法需要做 O(n³) 次浮点运算,却只需要读取和写入 O(n²) 的数据;

也就是说,计算量远大于数据传输量,能够最大化利用“算术便宜、搬运贵”的硬件优势,从而实现更高的性能和能效。

在线学习:



Transformer 架构首次在 2017 年由 Ashish Vaswani、Noam Shazeer 等八位研究人员提出。

发表在题为《Attention Is All You Need》的论文中,团队提出仅基于自注意力机制的网络设计,完全舍弃了循环和卷积结构。

显著提升了并行训练能力和翻译质量。

实验结果显示,该模型在 WMT 2014 英德翻译任务中达到 28.4 BLEU 值,并在 WMT 2014 英法翻译任务中取得 41.8 BLEU,训练时长及计算资源消耗大幅低于当时的最佳 RNN 和 CNN 模型。


人物介绍

Noam Shazeer 出生于 1976 年,是美国计算机科学家与企业家,祖父母曾逃离纳粹大屠杀,父母中至少一位是多语言数学教师转工程师。

他在 Duke University 主修数学与计算机科学,2000 年加入 Google 并开启其 AI 研究生涯。

计算量远大于数据传输量,能够最大化利用“算术便宜、搬运贵”的硬件优势,从而实现更高的性能和能效。

评论区聊聊你的想法



                               
登录/注册后可看大图




如果有收获,别忘了评分


                               
登录/注册后可看大图


                               
登录/注册后可看大图
                                                                    
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 5 小时前 | 显示全部楼层
感谢分享 朕又在鱼C学到东西啦!非常满意
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 5 小时前 | 显示全部楼层
@FishC 介绍Transformer架构
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 5 小时前 | 显示全部楼层
不二如是 发表于 2025-05-22 17:52
@FishC 介绍Transformer架构


Transformer架构简介  
Transformer是2017年提出的革命性神经网络架构(论文:Attention Is All You Need),彻底改变了自然语言处理(NLP)领域。核心特点是用自注意力机制替代传统的循环神经网络(RNN),实现高效并行计算和长距离依赖建模。  

核心组件  
      
  • 编码器-解码器结构  
    编码器:由多层 Multi-Head AttentionFeed Forward 组成,用于提取输入特征。  
    解码器:在编码器基础上增加 Cross-Attention 层,用于对齐输入与输出。  
  • 自注意力机制(Self-Attention)  
    计算每个词与其他词的相关性权重,公式:  
    1.   
    2. Attention(Q, K, V) = softmax(QK^T / √d_k) V  
    复制代码

  • 位置编码(Positional Encoding)  
    通过正弦/余弦函数或可学习参数,为输入添加位置信息,弥补无顺序处理的缺陷。  
  • 多头注意力(Multi-Head)  
    并行多个注意力头,捕捉不同维度的语义关系。  
  

优势  
      
  • 并行计算效率远超RNN/CNN  
  • 长距离依赖建模能力更强  
  • 适合大规模预训练(如BERT、GPT)  
  

典型应用  
机器翻译(如Google Translate)、文本生成(如GPT系列)、文本理解(如BERT)。  

【小贴士】现在的ChatGPT、Claude等AI的核心架构都是Transformer的变体哦!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-5-22 23:16

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表