Udostępnij przez


Używanie wystąpień RDMA lub GPU w pulach usługi Batch

Aby uruchomić niektóre zadania usługi Batch, możesz skorzystać z rozmiarów maszyn wirtualnych platformy Azure przeznaczonych do obliczeń na dużą skalę. Na przykład:

  • Aby uruchomić wieloinstancyjne obciążenia MPI, wybierz serię HB, HC, NC lub ND albo inne rozmiary, które mają interfejs sieciowy dla zdalnego bezpośredniego dostępu do pamięci (RDMA). Te rozmiary łączą się z siecią InfiniBand na potrzeby komunikacji między węzłami, co może przyspieszyć aplikacje MPI.

  • W przypadku aplikacji CUDA wybierz rozmiary serii N, które obejmują karty procesora graficznego NVIDIA Tesla (GPU).

Ten artykuł zawiera wskazówki i przykłady użycia niektórych wyspecjalizowanych rozmiarów platformy Azure w pulach usługi Batch. Aby uzyskać informacje o specyfikacji i tle, zobacz:

  • Rozmiary maszyn wirtualnych obliczeniowych o wysokiej wydajności (Linux, Windows)

  • Rozmiary maszyn wirtualnych z obsługą procesora GPU (Linux, Windows)

Uwaga

Niektóre rozmiary maszyn wirtualnych mogą nie być dostępne w regionach, w których tworzysz konta usługi Batch. Aby sprawdzić, czy rozmiar jest dostępny, zobacz Dostępność produktów według regionów i Wybieranie rozmiaru maszyny wirtualnej dla puli usługi Batch.

Zależności

Obsługa funkcji RDMA i GPU w rozmiarach intensywnie korzystających z obliczeń w usłudze Batch jest dostępna tylko w niektórych systemach operacyjnych. Obsługiwane systemy operacyjne dla tych rozmiarów maszyn wirtualnych obejmują tylko podzestaw tych, które są dostępne do tworzenia maszyn wirtualnych. W zależności od sposobu tworzenia puli usługi Batch może być konieczne zainstalowanie lub skonfigurowanie dodatkowego sterownika lub innego oprogramowania w węzłach. W poniższych tabelach podsumowano te zależności. Aby uzyskać szczegółowe informacje, zobacz połączone artykuły. Aby uzyskać opcje konfigurowania pul usługi Batch, zobacz dalej w tym artykule.

Pule systemu Linux — konfiguracja maszyny wirtualnej

Rozmiar Zdolność Systemy operacyjne Wymagane oprogramowanie Ustawienia puli
H16r, H16mr
NC24r, NC24rs_v2, NC24rs_v3, ND24rs*
Bezpośredni dostęp do pamięci zdalnej (RDMA) Ubuntu 22.04 LTS
(Azure Marketplace)
Intel MPI 5

Sterowniki RDMA systemu Linux
Włączanie komunikacji między węzłami, wyłączanie współbieżnego wykonywania zadań
NCv3, NDv2, NDv4, seria NDv5 GPU NVIDIA Tesla (różni się w zależności od serii) Ubuntu 22.04 LTS
(Azure Marketplace)
Sterowniki NVIDIA CUDA lub CUDA Toolkit Nie dotyczy
NVv3, NVv4, seria NVv5 Przyspieszony procesor GPU wizualizacji Ubuntu 22.04 LTS
(Azure Marketplace)
Sterowniki NVIDIA GRID lub sterowniki procesora GPU FIRMY AMD Nie dotyczy

*Rozmiary serii N z obsługą RDMA obejmują również procesory GPU NVIDIA Tesla

Ważne

Ten dokument odwołuje się do wersji systemu Linux, która zbliża się lub znajduje się na końcu cyklu życia (EOL). Rozważ aktualizację do nowszej wersji.

Pule systemu Windows — konfiguracja maszyny wirtualnej

Rozmiar Zdolność Systemy operacyjne Wymagane oprogramowanie Ustawienia puli
H16r, H16mr
NC24r, NC24rs_v2, NC24rs_v3, ND24rs*
Dostęp RDMA (Remote Direct Memory Access) Windows Server 2016, 2012 R2 lub
2012 (Azure Marketplace)
Microsoft MPI 2012 R2 lub nowszy albo
Intel MPI 5

Sterowniki RDMA systemu Windows
Włączanie komunikacji między węzłami, wyłączanie współbieżnego wykonywania zadań
seria NC, NCv2, NCv3, ND, NDv2 GPU NVIDIA Tesla (zależne od serii) Windows Server 2016 lub
2012 R2 (Azure Marketplace)
Sterowniki NVIDIA CUDA lub CUDA Toolkit Nie dotyczy
NV, NVv2, seria NVv4 NVIDIA Tesla M60 GPU Windows Server 2016 lub
2012 R2 (Azure Marketplace)
Sterowniki NVIDIA GRID Nie dotyczy

*Rozmiary serii N z obsługą RDMA obejmują również procesory GPU NVIDIA Tesla

Pule systemu Windows — konfiguracja usług Cloud Services

Ostrzeżenie

Pule konfiguracji usług w chmurze są przestarzałe. Zamiast tego użyj pul konfiguracji maszyn wirtualnych.

Rozmiar Możliwość Systemy operacyjne Wymagane oprogramowanie Ustawienia puli
H16r, H16mr RDMA Windows Server 2016, 2012 R2, 2012 lub
2008 R2 (rodzina systemów operacyjnych gościa)
Microsoft MPI 2012 R2 lub nowszy albo
Intel MPI 5

Sterowniki RDMA systemu Windows
Włącz komunikację między węzłami,
wyłączanie współbieżnego wykonywania zadań

Uwaga

Rozmiary serii N nie są obsługiwane w pulach konfiguracji usług Cloud Services.

Opcje konfiguracji puli

Aby skonfigurować wyspecjalizowany rozmiar maszyny wirtualnej dla puli usługi Batch, możesz zainstalować wymagane oprogramowanie lub sterowniki:

  • W przypadku pul w konfiguracji maszyny wirtualnej wybierz skonfigurowany obraz maszyny wirtualnej z Azure Marketplace, który ma zainstalowane sterowniki i oprogramowanie. Przykłady:

  • Utwórz niestandardowy obraz maszyny wirtualnej z systemem Windows lub Linux z zainstalowanymi sterownikami, oprogramowaniem lub innymi ustawieniami wymaganymi dla rozmiaru maszyny wirtualnej.

  • Zainstaluj sterowniki karty graficznej i RDMA za pomocą rozszerzenia maszyny wirtualnej.

  • Utwórz pakiet aplikacji ze spakowanego sterownika lub instalatora aplikacji. Następnie skonfiguruj usługę Batch, aby wdrożyć ten pakiet w węzłach puli i zainstalować go po utworzeniu każdego węzła. Jeśli na przykład pakiet aplikacji jest instalatorem, utwórz wiersz polecenia start task, aby dyskretnie zainstalować aplikację na wszystkich węzłach puli. Rozważ użycie pakietu aplikacji i zadania uruchamiania puli, jeśli obciążenie zależy od określonej wersji sterownika.

    Uwaga

    Zadanie startowe musi być uruchamiane z uprawnieniami administratora i powinno oczekiwać na pomyślne zakończenie. Dłużej trwające zadania zwiększą czas potrzebny na aprowizację puli Batch.

Przykład: sterowniki procesora GPU firmy NVIDIA w puli maszyn wirtualnych z systemem Windows NC

Aby uruchamiać aplikacje CUDA w puli węzłów nc systemu Windows, należy zainstalować sterowniki procesora GPU FIRMY NVIDIA. W poniższych przykładowych krokach użyto pakietu aplikacji do zainstalowania sterowników procesora GPU firmy NVIDIA. Możesz wybrać tę opcję, jeśli obciążenie zależy od określonej wersji sterownika procesora GPU.

  1. Pobierz pakiet instalacyjny sterowników procesora GPU w systemie Windows Server 2016 z witryny internetowej FIRMY NVIDIA — na przykład w wersji 411.82. Zapisz plik lokalnie przy użyciu krótkiej nazwy, takiej jak GPUDriverSetup.exe.
  2. Utwórz plik zip pakietu.
  3. Przekaż pakiet do konta usługi Batch. Aby uzyskać instrukcje, zobacz wskazówki dotyczące pakietów aplikacji. Określ identyfikator aplikacji, taki jak GPUDriver, i wersję, taką jak 411.82.
  4. Za pomocą interfejsów API usługi Batch lub witryny Azure Portal utwórz pulę w konfiguracji maszyny wirtualnej z żądaną liczbą węzłów i skalowaniem. W poniższej tabeli przedstawiono przykładowe ustawienia instalacji sterowników procesora GPU FIRMY NVIDIA w trybie dyskretnym przy użyciu zadania uruchamiania:
Ustawienie Wartość
Typ obrazu Marketplace (Linux/Windows)
Wydawca MicrosoftWindowsServer
Oferta WindowsServer
SKU 2016-Datacenter
Rozmiar węzła NC6 Standard
Referencje pakietu aplikacji GPUDriver, wersja 411.82
Włączone zadanie uruchamiania Prawda
Wiersz polecenia - cmd /c "%AZ_BATCH_APP_PACKAGE_GPUDriver#411.82%\\GPUDriverSetup.exe /s"
Tożsamość użytkownika — autoużytkownik puli, administrator
Oczekiwanie na powodzenie — prawda

Przykład: sterowniki procesora GPU firmy NVIDIA w puli maszyn wirtualnych nc systemu Linux

Aby uruchamiać aplikacje CUDA w puli węzłów nc systemu Linux, należy zainstalować niezbędne sterowniki procesora GPU NVIDIA Tesla z zestawu narzędzi CUDA Toolkit. Poniższe przykładowe kroki umożliwiają utworzenie i wdrożenie niestandardowego obrazu systemu Ubuntu 22.04 LTS za pomocą sterowników procesora GPU:

  1. Wdróż maszynę wirtualną z serii NC platformy Azure z systemem Ubuntu 22.04 LTS. Na przykład utwórz maszynę wirtualną w regionie Południowo-środkowym USA.
  2. Dodaj rozszerzenie sterowniki procesora GPU firmy NVIDIA do maszyny wirtualnej przy użyciu witryny Azure Portal, komputera klienckiego łączącego się z subskrypcją platformy Azure lub usługą Azure Cloud Shell. Alternatywnie wykonaj kroki, aby nawiązać połączenie z maszyną wirtualną i ręcznie zainstalować sterowniki CUDA.
  3. Wykonaj kroki, aby utworzyć obraz galerii obliczeniowej Azure dla usługi Batch.
  4. Utwórz konto usługi Batch w regionie obsługującym maszyny wirtualne nc.
  5. Za pomocą interfejsów API usługi Batch lub portalu Azure utwórz pulę, używając obrazu niestandardowego oraz z żądaną liczbą węzłów i skalą. W poniższej tabeli przedstawiono przykładowe ustawienia puli dla obrazu:
Ustawienie Wartość
Typ obrazu Obraz niestandardowy
Obraz niestandardowy Nazwa obrazu
SKU agenta węzła batch.node.ubuntu 22.04
Rozmiar węzła NC6 Standard

Przykład: Microsoft MPI w puli maszyn wirtualnych systemu Windows H16r

Aby uruchamiać aplikacje MPI systemu Windows w puli węzłów maszyn wirtualnych usługi Azure H16r, należy skonfigurować rozszerzenie HpcVmDrivers i zainstalować interfejs MICROSOFT MPI. Poniżej przedstawiono przykładowe kroki wdrażania niestandardowego obrazu systemu Windows Server 2016 z wymaganymi sterownikami i oprogramowaniem:

  1. Wdróż maszynę wirtualną platformy Azure H16r z systemem Windows Server 2016. Na przykład utwórz maszynę wirtualną w regionie Zachodnim USA.
  2. Dodaj rozszerzenie HpcVmDrivers do maszyny wirtualnej, uruchamiając polecenie programu Azure PowerShell z komputera klienckiego, który łączy się z subskrypcją platformy Azure lub przy użyciu usługi Azure Cloud Shell.
  3. Utwórz połączenie pulpitu zdalnego z maszyną wirtualną.
  4. Pobierz pakiet instalacyjny (MSMpiSetup.exe) dla najnowszej wersji programu Microsoft MPI i zainstaluj program Microsoft MPI.
  5. Wykonaj kroki, aby utworzyć obraz Azure Compute Gallery dla usługi Batch.
  6. Za pomocą interfejsów API usługi Batch lub portalu Azure utwórz pulę przy użyciu galerii Azure Compute Gallery oraz określ żądaną liczbę węzłów i skalę. W poniższej tabeli przedstawiono przykładowe ustawienia puli dla obrazu:
Ustawienie Wartość
Typ obrazu Obraz niestandardowy
Obraz niestandardowy Nazwa obrazu
SKU agenta węzła batch.node.windows amd64 (nazwa opisująca wersję systemu dla architektury 64-bitowej)
Rozmiar węzła H16r Standard
Włączono komunikację między węzłami Prawda
Maksymalna liczba zadań na węzeł 1

Następne kroki

  • Aby uruchomić zadania MPI w puli Azure Batch, zobacz przykłady dla systemu Windows lub Linux.