다음을 통해 공유


InfiniBand 사용

적용 대상: ✔️ Linux 가상 머신 ✔️ Windows 가상 머신 ✔️ 유연한 확장 집합 ✔️ 균일한 확장 집합

RDMA 지원HB 시리즈N 시리즈 VM은 대기 시간이 짧고 대역폭이 높은 InfiniBand 네트워크를 통해 통신합니다. 이러한 상호 연결에 대한 RDMA 기능은 분산 노드 HPC 및 AI 워크로드의 확장성 및 성능을 향상시키는 데 중요합니다. InfiniBand 지원 HB 시리즈 및 N 시리즈 VM은 최적화되고 일관된 RDMA 성능을 위해 지름이 작은 비차단 지방 트리에 연결됩니다.

지원되는 VM 크기에서 InfiniBand를 사용하도록 설정하는 방법에는 여러 가지가 있습니다.

비고

더 빠른 진단을 위해 VM 지원을 사용해 보세요. Windows용 VM 지원 또는 Linux용 VM 지원을 실행하는 것이 좋습니다. 이러한 스크립트 기반 진단 도구는 Azure VM 게스트 에이전트 및 전체 VM 상태에 영향을 주는 일반적인 문제를 식별하는 데 도움이 됩니다.

가상 머신에 성능 문제가 발생하는 경우 지원에 문의하기 전에 다음 도구를 실행합니다.

InfiniBand 드라이버가 있는 VM 이미지

InfiniBand 드라이버(SR-IOV 또는 비SR-IOV VM용)로 미리 로드되거나 RDMA 지원 VM에 적합한 드라이버로 구성할 수 있는 Marketplace에서 지원되는 VM 이미지 목록은 VM 이미지를 참조하세요. 마켓플레이스에서 Ubuntu-HPCAlmaLinux-HPC VM 이미지는 시작하는 가장 쉬운 방법입니다.

InfiniBand 드라이버 VM 확장

Linux 에서 InfiniBandDriverLinux VM 확장을 사용하여 Mellanox OFED 드라이버를 설치하고 SR-IOV 사용하도록 설정된 HB 시리즈 및 N 시리즈 VM에서 InfiniBand를 사용하도록 설정할 수 있습니다.

Windows에서 InfiniBandDriverWindows VM 확장은 RDMA 연결을 위해 비SR-IOV VM의 경우 Windows Network Direct 드라이버를, SR-IOV VM의 경우 Mellanox OFED 드라이버를 설치합니다. A8 및 A9 인스턴스의 특정 배포에서는 HpcVmDrivers 확장이 자동으로 추가됩니다. HpcVmDrivers VM 확장은 더 이상 사용되지 않습니다. 업데이트되지 않습니다.

VM 확장을 VM에 추가하려면 Azure PowerShell cmdlet을 사용할 수 있습니다. 자세한 내용은 가상 머신 확장 및 기능을 참조하세요. 클래식 배포 모델에 배포된 VM에 대한 확장을 사용할 수도 있습니다.

수동 설치

Mellanox OpenFabrics 드라이버(OFED)SR-IOV 사용하도록 설정된HB 시리즈N 시리즈 VM에 수동으로 설치할 수 있습니다.

리눅스

Linux용 OFED 드라이버는 아래 예제와 함께 설치할 수 있습니다. 여기서 예제는 RHEL용이지만 단계는 일반적이며 Ubuntu(22.04, 24.04) 및 SLES(12 SP4+ 및 15)와 같은 호환되는 Linux 운영 체제에 사용할 수 있습니다. 다른 배포판에 대한 더 많은 예제는 azhpc-images 리포지토리에 있습니다. 받은 편지함 드라이버도 작동하지만 Mellanox OFED 드라이버는 더 많은 기능을 제공합니다.

MLNX_OFED_DOWNLOAD_URL=http://content.mellanox.com/ofed/MLNX_OFED-5.0-2.1.8.0/MLNX_OFED_LINUX-5.0-2.1.8.0-rhel7.7-x86_64.tgz
# Optionally verify checksum
wget --retry-connrefused --tries=3 --waitretry=5 $MLNX_OFED_DOWNLOAD_URL
tar zxvf MLNX_OFED_LINUX-5.0-2.1.8.0-rhel7.7-x86_64.tgz

KERNEL=( $(rpm -q kernel | sed 's/kernel\-//g') )
KERNEL=${KERNEL[-1]}
# Uncomment the lines below if you are running this on a VM
#RELEASE=( $(cat /etc/redhat-release | awk '{print $4}') )
#yum -y install http://olcentgbl.trafficmanager.net/redhat/${RELEASE}/updates/x86_64/kernel-devel-${KERNEL}.rpm
sudo yum install -y kernel-devel-${KERNEL}
sudo ./MLNX_OFED_LINUX-5.0-2.1.8.0-rhel7.7-x86_64/mlnxofedinstall --kernel $KERNEL --kernel-sources /usr/src/kernels/${KERNEL} --add-kernel-support --skip-repo

윈도우즈

Windows의 경우 Windows 드라이버용 Mellanox OFED를 다운로드하여 설치합니다.

IB(InfiniBand)를 통해 IP 사용

MPI 작업을 실행하려는 경우 일반적으로 IPoIB가 필요하지 않습니다. MPI 라이브러리는 IB 통신에 동사 인터페이스를 사용합니다(MPI 라이브러리의 TCP/IP 채널을 명시적으로 사용하지 않는 한). 그러나 통신에 TCP/IP를 사용하는 앱이 있고 IB를 통해 실행하려는 경우 IB 인터페이스를 통해 IPoIB를 사용할 수 있습니다. 다음 명령(RHEL용)을 사용하여 InfiniBand를 통해 IP를 사용하도록 설정합니다.

중요합니다

문제를 방지하려면 이전 버전의 Microsoft Azure Linux 에이전트(waagent)를 실행하지 않는지 확인합니다. IB를 통해 IP를 사용하도록 설정하기 전에 버전 2.4.0.2 이상을 사용하는 것이 좋습니다.

sudo sed -i -e 's/# OS.EnableRDMA=n/OS.EnableRDMA=y/g' /etc/waagent.conf
sudo systemctl restart waagent

다음 단계