Freigeben über


Schnellstart : Bereitstellen des Azure CycleCloud-Arbeitsbereichs für Slurm mithilfe von Azure Marketplace

Azure CycleCloud Workspace für Slurm ist eine kostenlose Marketplace-Anwendung, die eine einfache, sichere und skalierbare Möglichkeit zum Verwalten von Compute- und Speicherressourcen für HPC- und KI-Workloads bietet. In dieser Schnellstartanleitung installieren Sie CycleCloud Workspace für Slurm mithilfe der Azure Marketplace-Anwendung.

Die wichtigsten Schritte zum Bereitstellen und Konfigurieren des CycleCloud-Arbeitsbereichs für Slurm, einschließlich Open OnDemand, sind:

  1. Lesen Sie diese Anweisungen, bevor Sie beginnen: Planen Sie Ihren CycleCloud-Arbeitsbereich für die Slurm-Bereitstellung.
  2. Bereitstellen eines CycleCloud-Arbeitsbereichs für slurm-Umgebung mithilfe von Azure Marketplace (dieser Schnellstart).
  3. Registrieren Sie eine Microsoft Entra ID-Anwendung für die Open OnDemand-Authentifizierung: Registrieren Sie eine Microsoft Entra ID-Anwendung für Open OnDemand.
  4. Konfigurieren von Open OnDemand für die Verwendung der Microsoft Entra ID-Anwendung: Konfigurieren von Open OnDemand mit CycleCloud
  5. Hinzufügen von Benutzern in CycleCloud: Hinzufügen von Benutzern für Open OnDemand

Voraussetzungen

Für diese Schnellstartanleitung benötigen Sie Folgendes:

  1. Ein Azure-Konto mit einem aktiven Abonnement
  2. Die Rollen " Mitwirkender" und "Benutzerzugriffsadministrator " auf Abonnementebene
  3. Direkte Verbindung mit dem virtuellen Netzwerk, das vom Cluster verwendet wird (d. h. keine Azure Bastion verwenden), wenn Sie Open OnDemand bereitstellen müssen
  4. Berechtigung zum Registrieren einer Microsoft Entra-ID-Anwendung, wenn Sie Open OnDemand bereitstellen müssen

Vorgehensweise bei der Bereitstellung

  1. Melden Sie sich beim Azure-Portal an.
  2. Klicken Sie auf + Ressource erstellen.
  3. Geben Sie im Feld "Suchdienste und Marketplace " Slurm ein, und wählen Sie dann "Azure CycleCloud Workspace" für Slurm aus.
  4. Wählen Sie auf der Seite "Azure CycleCloud Workspace for Slurm " die Option "Erstellen" aus.

Screenshot des Azure CycleCloud-Arbeitsbereichs für den Slurm-Marktplatz-Bildschirm.

Grundlagen

  • Geben Sie auf der Seite "Neues Azure CycleCloud Workspace für Slurm-Konto " die folgenden Details ein, oder wählen Sie sie aus.
    • Abonnement: Wählen Sie das Abonnement aus, das verwendet werden soll, wenn es noch nicht ausgewählt ist.
    • Region: Wählen Sie die Azure-Region aus, in der Sie Ihren CycleCloud-Arbeitsbereich für slurm-Umgebung bereitstellen möchten.
    • Ressourcengruppe: Wählen Sie die Ressourcengruppe für den Azure CycleCloud-Arbeitsbereich für slurm-Konto aus, oder erstellen Sie eine neue.
    • CycleCloud VM Size: Wählen Sie eine neue VM-Größe aus, oder behalten Sie die Standardgröße bei.
    • Administratorbenutzer: Geben Sie einen Namen und ein Kennwort für das CycleCloud-Administratorkonto ein.
    • Öffentlicher Administrator-SSH-Schlüssel: Wählen Sie den öffentlichen SSH-Schlüssel des Administratorkontos direkt oder wenn sie in einer SSH-Schlüsselressource in Azure gespeichert sind.

Screenshot des Bildschirms

Dateisystem

Home-Verzeichnis der Benutzer – Neues Erstellen

Geben Sie an, wo das Heimverzeichnis der Benutzer abgelegt werden soll.

  • Builtin NFS – Verwendet die Scheduler-VM als NFS-Server mit einer angefügten Datendisk. Screenshot der Dateisystemeinbindung für /shared und /home, integrierter Bildschirm mit neuen Optionen für die NFS-Erstellung.

  • Azure NetApp Files – Erstellt ein ANF-Konto, einen Pool und ein Volume mit der angegebenen Kapazität und Serviceebene. Screenshot der Dateisystemeinbindung für /shared und /home – Optionsbildschirm zum Neuerstellen von Azure NetApp Files.

Heimverzeichnis der Benutzer – Vorhandenes Verwenden

Wenn Sie über einen vorhandenen NFS-Montagepunkt verfügen, wählen Sie die Option Vorhandene verwenden aus und geben Sie die Einstellungen an, um ihn bereitzustellen. Screenshot der Dateisystemeinbindung für /shared und /home unter Verwendung des NFS-Optionsbildschirms.

Ergänzende Dateisystembereitstellung – Neu erstellen

Wenn Sie ein anderes Dateisystem für Ihre Projektdaten bereitstellen müssen, können Sie entweder ein neues Erstellen oder ein vorhandenes Dateisystem angeben. Sie können ein neues Azure NetApp Files-Volume oder ein Azure Managed Lustre Filesystem erstellen.

Screenshot der zusätzlichen Dateisystemeinbindung zum Erstellen neuer Azure NetApp-Dateien.

Screenshot der zusätzlichen Dateisystemeinbindung zum neuen Erstellen von Azure Managed Lustre.

Ergänzende Dateisystembereitstellung – Vorhandene verwenden

Wenn Sie über einen externen NFS-Bereitstellungspunkt oder ein Azure Managed Lustre Filesystem verfügen, können Sie die Bereitstellungsoptionen angeben.

Screenshot der zusätzlichen Dateisystemeinbindung für ein vorhandenes externes NFS.

Vernetzung

Geben Sie an, ob Sie ein neues virtuelles Netzwerk und Subnetze erstellen oder ein vorhandenes netzwerk verwenden möchten.

Erstellen eines neuen virtuellen Netzwerks

Screenshot der Netzwerkoptionen zum Erstellen eines neuen.

  • Wählen Sie den CIDR aus, der der Anzahl der Computeknoten entspricht, auf die Sie abzielen, und geben Sie eine Basis-IP-Adresse an.
  • Erstellen Sie eine Bastion, wenn Ihre Unternehmens-IT keine direkte Konnektivität bietet.
  • Erstellen Sie ein NAT-Gateway, um ausgehende Verbindungen mit dem Internet bereitzustellen.
  • Verbinden Sie mit einem bestehenden virtuellen Netzwerk, wenn Sie bereits über einen HUB verfügen, der Dienste wie Bastion und ein VPN-Gateway bereitstellen kann. Stellen Sie sicher, dass Sie eine Basis-IP-Adresse auswählen, die mit Ihrem virtuellen Peered-Netzwerk kompatibel ist. Wenn das virtuelle Peernetzwerk über ein Gateway verfügt, überprüfen Sie die Option "Gatewaytransit zulassen ".

Verwenden eines vorhandenen virtuellen Netzwerks

Bevor Sie ein vorhandenes virtuelles Netzwerk verwenden, überprüfen Sie die Voraussetzungen in "Plan your CycleCloud Workspace for Slurm Deployment".

Screenshot der Netzwerkoptionen zur Nutzung eines bestehenden Netzwerks.

Geben Sie an, wie die Registrierung des privaten Endpunkts verwaltet wird, der für das Speicherkonto zum Speichern von CycleCloud-Projekten mit einer privaten DNS-Zone verwendet wird. Sie können eine neue private DNS-Zone erstellen, eine vorhandene verwenden oder nicht registrieren.

Screenshot der Netzwerkoptionen für private DNS-Zone.

Slurm-Einstellungen

Geben Sie die Größe und das Image des virtuellen Computers für den Zeitplan und die Authentifizierungsknoten an. Die Bilder sind HPC-Images in Azure Marketplace mit den folgenden URIs:

Bildname URI
Alma Linux 8.10 almalinux:almalinux-hpc:8_10-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
Benutzerdefiniertes Image Sie müssen einen Bild-URN oder eine Bild-ID angeben.

Wenn Sie ein Custom ImageBild auswählen, geben Sie einen Bild-URN für ein vorhandenes Marketplace-Image oder eine Bild-ID für ein Bild in einem Azure Compute Gallery an.

Wenn Sie dasselbe Bild für den Zeitplaner, Authentifizierungsknoten und Computeknoten verwenden möchten, wählen Sie "Bild verwenden" auf allen Knoten aus.

Geben Sie die Anzahl der Authentifizierungsknoten an, die Sie anfänglich bereitstellen möchten, und die maximal zulässige Anzahl. Wenn Sie Integritätsprüfungen aktivieren, führt die Lösung automatisch Knotenintegritätsprüfungen für die HPC- und GPU-Partitionen aus und entfernt alle fehlerhaften Knoten. Sie können den Start des Clusters verzögern, wenn Sie weitere Einstellungen über das CycleCloud-Portal konfigurieren müssen.

Screenshot der Slurm-Einstellungen.

Um Slurm Job Accounting zu aktivieren, aktivieren Sie das Kontrollkästchen, um Konnektivitätsoptionen anzuzeigen. Stellen Sie sicher, dass Sie über eine flexible Azure-Datenbankressource für MySQL verfügen, die Sie zuvor bereitgestellt haben.

Sie können eine Verbindung mit einem FQDN oder einer privaten IP herstellen, wenn Sie Ihr eigenes virtuelles Netzwerk bereitstellen. Sie können auch virtuelles Netzwerk-Peering verwenden, wenn Sie ein neues virtuelles Netzwerk als Teil Ihrer Bereitstellung erstellen. Wenn Sie ein neues virtuelles Netzwerk erstellen, können Sie auch eine Verbindung über einen privaten Endpunkt herstellen.

Screenshot der Slurm-Einstellungsoptionen für die Auftragsressourcenerfassungs-Datenbank, direkter FQDN.

Screenshot der Optionen für die Slurm-Einstellung für die Auftragsbuchhaltungsdatenbank mit privatem Endpunkt.

Partitionseinstellungen

Azure CycleCloud Workspace für Slurm umfasst drei definierte Slurm-Partitionen:

  • HTC: Für hochgradig parallele Nicht-MPI-Aufträge.
  • HPC: Für eng gekoppelte MPI-Aufträge, die hauptsächlich VM-Typen mit oder ohne InfiniBand-Unterstützung verwenden.
  • GPU: Für MPI- und NICHT-MPI-GPU-Aufträge, die VM-Typen mit oder ohne InfiniBand-Unterstützung verwenden.

Sie können das Image und die maximale Anzahl von Knoten für jede Partition festlegen, die CycleCloud dynamisch erstellt. Nur die HTC-Partition ermöglicht die Verwendung von Spotinstanzen, da Spotinstanzen für HPC- und GPU-Aufträge nicht gut funktionieren.

Screenshot der Optionen für die Partitionseinstellungen.

OnDemand öffnen

Um "OnDemand öffnen" zu verwenden, aktivieren Sie das Kontrollkästchen, und geben Sie die folgenden Informationen ein:

  • der Name des Bilds,
  • den Domänennamen (contoso.com), den das System zum Abrufen des Benutzernamens (user@contoso.com) verwendet und mit dem lokalen Linux-Konto (user) übereinstimmt, das CycleCloud für die Authentifizierung verwaltet,
  • den vollqualifizierten Domänennamen (FQDN) des Open OnDemand-Webservers (leer lassen, wenn Sie die private IP verwenden möchten),
  • Unabhängig davon, ob Sie eine vorhandene Microsoft Entra ID-Anwendung verwenden oder eine Anwendung manuell registrieren möchten. Automatically register Entra ID application ist eine zusätzliche Option, die nur angezeigt wird, wenn Sie die CLI-Bereitstellung verwenden.

Hinweis

Für die Benutzerauthentifizierung ist eine Microsoft Entra-ID-Anwendung erforderlich. Wenn unsere Skripts keine Anwendung erstellen, erstellen Sie eine anwendung manuell. Weitere Informationen finden Sie unter Registrieren einer Microsoft Entra ID-Anwendung für Open OnDemand.

Screenshot der Open-OnDemand-Optionen.

Fortgeschritten

Sie können Verfügbarkeitszonen für Cluster-Computeknoten und neue Dateisystemressourcen aktivieren. Durch das Platzieren von Computeknoten und Speicher in derselben Verfügbarkeitszone wird eine minimale Latenz zwischen ihnen sichergestellt.

Screenshot der erweiterten Optionen.

Stichwörter

Weisen Sie die entsprechenden Tags den erforderlichen Ressourcen zu. CycleCloud stellt virtuelle Maschinen dynamisch bereit und wendet ihnen Knotenarray-Tags an.

Screenshot der Tag-Optionen.

Überprüfen und erstellen

Überprüfen Sie Ihre Optionen. Dieser Schritt enthält auch einige Überprüfungen.

Screenshot der Überprüfung.

Wenn die Überprüfungen abgeschlossen sind, wählen Sie "Erstellen" aus, um die Bereitstellung zu initialisieren.

Screenshot der laufenden Bereitstellung.

Verfolgen Sie den Bereitstellungsstatus und die Schritte.

Überprüfen Sie die Bereitstellung

Stellen Sie eine Verbindung mit ccw-cyclecloud-vm her, indem Sie Bastion mit dem Benutzernamen und den SSH-Schlüsseln verwenden, die Sie während der Bereitstellung angeben.

Screenshot des Menüs

Screenshot der Verbindungsoptionen

Überprüfen Sie nach dem Herstellen der Verbindung die Cloud-Init-Protokolle, um sicherzustellen, dass alles korrekt ist.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

Richten Sie als Nächstes die Konnektivität zwischen Ihrem Clientcomputer und dem virtuellen Computer CycleCloud ein. Ihre IT-Abteilung ihres Unternehmens muss Ihnen möglicherweise bei der Einrichtung der Konnektivität über ein VPN, Bastion-Tunneling oder eine angefügte öffentliche IP helfen, wenn Ihr Unternehmen dies zulässt. Greifen Sie auf die Weboberfläche zu, indem Sie https://<cyclecloud_ip> im Browser öffnen. Melden Sie sich mit dem Benutzernamen und kennwort an, den Sie während der Bereitstellung angeben. Stellen Sie sicher, dass sowohl der Planer als auch der Anmeldeknoten laufen.

Ressourcen