Handsome_zhou 发表于 2023-9-21 11:02:13

A100服务器未配置NVLINK,多卡训练更改环境变量

本帖最后由 Handsome_zhou 于 2023-9-21 11:03 编辑

A100默认使用NVLINK,需要对环境变量进行更改!

进入.bashrc文件

添加如下四项:
export NCCL_P2P_DISABLE=1
export NCCL_DEBUG=WARN
export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME=bond

更新:
source ~/.bashrc


这些环境变量都是用于设置 NCCL(NVIDIA 集体通信库)的相关参数。NCCL 是一个用于在 GPU 设备之间进行高速通信的库,主要用于在多台机器或者一台机器的多个 GPU 之间进行数据传输。下面是这些环境变量的具体作用:
1. `export NCCL_P2P_DISABLE=1`:这个环境变量用于禁用 NCCL 的点对点通信功能。通过设置此变量为 1,可以禁止 NCCL 使用点对点通信方式。
2. `export NCCL_DEBUG=WARN`:这个环境变量用于设置 NCCL 的调试级别。这里设置为 WARN,表示只输出警告级别的调试信息。其他可选的值包括 TRACE、DEBUG、INFO 等。
3. `export NCCL_IB_DISABLE=1`:这个环境变量用于禁用 NCCL 的 IB(无限带宽)通信功能。通过设置此变量为 1,可以禁止 NCCL 使用 IB 通信方式。
4. `export NCCL_SOCKET_IFNAME=bond`:这个环境变量用于设置 NCCL 使用的网络接口名称。这里设置为 bond,表示 NCCL 将使用名为 bond 的网络接口进行通信。
这些环境变量的设置可以根据实际需要进行调整,以满足不同的应用场景和需求。
页: [1]
查看完整版本: A100服务器未配置NVLINK,多卡训练更改环境变量