|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 Handsome_zhou 于 2023-9-21 11:03 编辑
A100默认使用NVLINK,需要对环境变量进行更改!
进入.bashrc文件
添加如下四项:
export NCCL_P2P_DISABLE=1
export NCCL_DEBUG=WARN
export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME=bond
更新:
source ~/.bashrc
这些环境变量都是用于设置 NCCL(NVIDIA 集体通信库)的相关参数。NCCL 是一个用于在 GPU 设备之间进行高速通信的库,主要用于在多台机器或者一台机器的多个 GPU 之间进行数据传输。下面是这些环境变量的具体作用:
1. `export NCCL_P2P_DISABLE=1`:这个环境变量用于禁用 NCCL 的点对点通信功能。通过设置此变量为 1,可以禁止 NCCL 使用点对点通信方式。
2. `export NCCL_DEBUG=WARN`:这个环境变量用于设置 NCCL 的调试级别。这里设置为 WARN,表示只输出警告级别的调试信息。其他可选的值包括 TRACE、DEBUG、INFO 等。
3. `export NCCL_IB_DISABLE=1`:这个环境变量用于禁用 NCCL 的 IB(无限带宽)通信功能。通过设置此变量为 1,可以禁止 NCCL 使用 IB 通信方式。
4. `export NCCL_SOCKET_IFNAME=bond`:这个环境变量用于设置 NCCL 使用的网络接口名称。这里设置为 bond,表示 NCCL 将使用名为 bond 的网络接口进行通信。
这些环境变量的设置可以根据实际需要进行调整,以满足不同的应用场景和需求。 |
|