鱼C论坛

 找回密码
 立即注册
查看: 1445|回复: 0

[学习笔记] A100服务器未配置NVLINK,多卡训练更改环境变量

[复制链接]
发表于 2023-9-21 11:02:13 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Handsome_zhou 于 2023-9-21 11:03 编辑

A100默认使用NVLINK,需要对环境变量进行更改!

进入.bashrc文件

添加如下四项:
export NCCL_P2P_DISABLE=1
export NCCL_DEBUG=WARN
export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME=bond

更新:
source ~/.bashrc


这些环境变量都是用于设置 NCCL(NVIDIA 集体通信库)的相关参数。NCCL 是一个用于在 GPU 设备之间进行高速通信的库,主要用于在多台机器或者一台机器的多个 GPU 之间进行数据传输。下面是这些环境变量的具体作用:
1. `export NCCL_P2P_DISABLE=1`:这个环境变量用于禁用 NCCL 的点对点通信功能。通过设置此变量为 1,可以禁止 NCCL 使用点对点通信方式。
2. `export NCCL_DEBUG=WARN`:这个环境变量用于设置 NCCL 的调试级别。这里设置为 WARN,表示只输出警告级别的调试信息。其他可选的值包括 TRACE、DEBUG、INFO 等。
3. `export NCCL_IB_DISABLE=1`:这个环境变量用于禁用 NCCL 的 IB(无限带宽)通信功能。通过设置此变量为 1,可以禁止 NCCL 使用 IB 通信方式。
4. `export NCCL_SOCKET_IFNAME=bond`:这个环境变量用于设置 NCCL 使用的网络接口名称。这里设置为 bond,表示 NCCL 将使用名为 bond 的网络接口进行通信。
这些环境变量的设置可以根据实际需要进行调整,以满足不同的应用场景和需求。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-6-10 00:01

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表