|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
@梁斌penny
答:在大模型的训练过程中,需要在一个多机多卡的环境下训练,洋人一般是互联72张卡(NVL72)构成的超级集群来训练,为什么72张卡,因为是互联设备决定的,因为训练需要卡和卡之间是全联通,超过72张卡可以互联,但是中间要增加跳转,速度就慢了(正常一张卡有18 个 NVLink 连接,NVL72理论上卡和卡之间一跳可达)。那么这种情况下单机性能就非常关键。洋人此前的认知是只要限制住单机性能的机器不卖给咱,咱就训练不了非常高水平的模型。
然后洋人还是低估了我们的创造力,加上我们在保密措施上(也许是不在隐忍的策略)不够理想,把我们能够互联数百台机器的能力给暴露了。这样我们可以用相对弱的单机,互联组网成一个非常大的超节点CloudMatrix384,互联384张卡,实现比洋人超级集群还牛逼接近2倍的算力能力(虽然单卡算力只有人家三分之一)。这下洋人就慌了,H20再卖给我们,显存这么大,真是搞不好要维持不了领先局面。
所以目前的情况是洋人互联设备弱,单卡性能强;我们是互联设备强,单卡性能弱。价格上我们的CloudMatrix384 一套设备(含卡和机器)是 NVL72 一套设备的3倍。不过这个成本真不是事儿,在电费面前都不算啥。加上电费在祖国的发展上,都不算啥。
|
|