不二如是 发表于 2024-4-13 16:00:00

探秘「谷歌AI超级计算机」内部工作原理

本帖最后由 不二如是 于 2024-4-12 15:54 编辑



探秘「谷歌AI超级计算机」内部工作原理:

https://www.bilibili.com/video/BV1Ex421m7Dt

专为AI工作负载设计的超级计算架构!

谷歌拥有自主定制的TPU芯片,其90%以上的人工智能训练任务都通过这些芯片完成。人工智能训练指的是为模型投喂数据,使之可以具备类似人类的文本聊天和图片生成能力。

谷歌TPU目前已经是第四代产品。该公司周二发布了一篇论文,详细阐述了该公司如何利用自己定制的光开关将4000多个芯片组合到一台超级计算机中,从而将一台台的独立机器连接在一起。

改善这些连接的效果已经成为科技公司开发人工智能超级计算机时的重要竞争点,这是因为谷歌Bard和OpenAI的ChatGPT使用的大语言模型规模急剧扩大,无法使用单一芯片完成。

这些模型必须分配到数千个芯片上运行,由这些芯片共同协作数周甚至更长时间来训练模型。PaLM是谷歌迄今为止公开披露的规模最大的语言模型,该模型需要分配到两台各包含4000个芯片的超级计算机中,耗时50多天进行训练。

谷歌表示,该公司的超级计算机使之可以在运行过程中轻松对芯片间的连接进行重新配置,有助于避免问题和调整性能。
页: [1]
查看完整版本: 探秘「谷歌AI超级计算机」内部工作原理