Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Azure CycleCloud Workspace für Slurm ist eine kostenlose Marketplace-Anwendung, die eine einfache, sichere und skalierbare Möglichkeit zum Verwalten von Compute- und Speicherressourcen für HPC- und KI-Workloads bietet. In dieser Schnellstartanleitung installieren Sie CycleCloud Workspace für Slurm mithilfe der Azure Marketplace-Anwendung.
Die wichtigsten Schritte zum Bereitstellen und Konfigurieren des CycleCloud-Arbeitsbereichs für Slurm, einschließlich Open OnDemand, sind:
- Lesen Sie diese Anweisungen, bevor Sie beginnen: Planen Sie Ihren CycleCloud-Arbeitsbereich für die Slurm-Bereitstellung.
- Bereitstellen eines CycleCloud-Arbeitsbereichs für slurm-Umgebung mithilfe von Azure Marketplace (dieser Schnellstart).
- Registrieren Sie eine Microsoft Entra ID-Anwendung für die Open OnDemand-Authentifizierung: Registrieren Sie eine Microsoft Entra ID-Anwendung für Open OnDemand.
- Konfigurieren von Open OnDemand für die Verwendung der Microsoft Entra ID-Anwendung: Konfigurieren von Open OnDemand mit CycleCloud
- Hinzufügen von Benutzern in CycleCloud: Hinzufügen von Benutzern für Open OnDemand
Voraussetzungen
Für diese Schnellstartanleitung benötigen Sie Folgendes:
- Ein Azure-Konto mit einem aktiven Abonnement
- Die Rollen " Mitwirkender" und "Benutzerzugriffsadministrator " auf Abonnementebene
- Direkte Verbindung mit dem virtuellen Netzwerk, das vom Cluster verwendet wird (d. h. keine Azure Bastion verwenden), wenn Sie Open OnDemand bereitstellen müssen
- Berechtigung zum Registrieren einer Microsoft Entra-ID-Anwendung, wenn Sie Open OnDemand bereitstellen müssen
Vorgehensweise bei der Bereitstellung
- Melden Sie sich beim Azure-Portal an.
- Klicken Sie auf + Ressource erstellen.
- Geben Sie im Feld "Suchdienste und Marketplace " Slurm ein, und wählen Sie dann "Azure CycleCloud Workspace" für Slurm aus.
- Wählen Sie auf der Seite "Azure CycleCloud Workspace for Slurm " die Option "Erstellen" aus.
Grundlagen
- Geben Sie auf der Seite "Neues Azure CycleCloud Workspace für Slurm-Konto " die folgenden Details ein, oder wählen Sie sie aus.
- Abonnement: Wählen Sie das Abonnement aus, das verwendet werden soll, wenn es noch nicht ausgewählt ist.
- Region: Wählen Sie die Azure-Region aus, in der Sie Ihren CycleCloud-Arbeitsbereich für slurm-Umgebung bereitstellen möchten.
- Ressourcengruppe: Wählen Sie die Ressourcengruppe für den Azure CycleCloud-Arbeitsbereich für slurm-Konto aus, oder erstellen Sie eine neue.
- CycleCloud VM Size: Wählen Sie eine neue VM-Größe aus, oder behalten Sie die Standardgröße bei.
- Administratorbenutzer: Geben Sie einen Namen und ein Kennwort für das CycleCloud-Administratorkonto ein.
- Öffentlicher Administrator-SSH-Schlüssel: Wählen Sie den öffentlichen SSH-Schlüssel des Administratorkontos direkt oder wenn sie in einer SSH-Schlüsselressource in Azure gespeichert sind.
Dateisystem
Home-Verzeichnis der Benutzer – Neues Erstellen
Geben Sie an, wo das Heimverzeichnis der Benutzer abgelegt werden soll.
Builtin NFS – Verwendet die Scheduler-VM als NFS-Server mit einer angefügten Datendisk.
Azure NetApp Files – Erstellt ein ANF-Konto, einen Pool und ein Volume mit der angegebenen Kapazität und Serviceebene.
Heimverzeichnis der Benutzer – Vorhandenes Verwenden
Wenn Sie über einen vorhandenen NFS-Montagepunkt verfügen, wählen Sie die Option Vorhandene verwenden aus und geben Sie die Einstellungen an, um ihn bereitzustellen.
Ergänzende Dateisystembereitstellung – Neu erstellen
Wenn Sie ein anderes Dateisystem für Ihre Projektdaten bereitstellen müssen, können Sie entweder ein neues Erstellen oder ein vorhandenes Dateisystem angeben. Sie können ein neues Azure NetApp Files-Volume oder ein Azure Managed Lustre Filesystem erstellen.
Ergänzende Dateisystembereitstellung – Vorhandene verwenden
Wenn Sie über einen externen NFS-Bereitstellungspunkt oder ein Azure Managed Lustre Filesystem verfügen, können Sie die Bereitstellungsoptionen angeben.
Vernetzung
Geben Sie an, ob Sie ein neues virtuelles Netzwerk und Subnetze erstellen oder ein vorhandenes netzwerk verwenden möchten.
Erstellen eines neuen virtuellen Netzwerks
- Wählen Sie den CIDR aus, der der Anzahl der Computeknoten entspricht, auf die Sie abzielen, und geben Sie eine Basis-IP-Adresse an.
- Erstellen Sie eine Bastion, wenn Ihre Unternehmens-IT keine direkte Konnektivität bietet.
- Erstellen Sie ein NAT-Gateway, um ausgehende Verbindungen mit dem Internet bereitzustellen.
- Verbinden Sie mit einem bestehenden virtuellen Netzwerk, wenn Sie bereits über einen HUB verfügen, der Dienste wie Bastion und ein VPN-Gateway bereitstellen kann. Stellen Sie sicher, dass Sie eine Basis-IP-Adresse auswählen, die mit Ihrem virtuellen Peered-Netzwerk kompatibel ist. Wenn das virtuelle Peernetzwerk über ein Gateway verfügt, überprüfen Sie die Option "Gatewaytransit zulassen ".
Verwenden eines vorhandenen virtuellen Netzwerks
Bevor Sie ein vorhandenes virtuelles Netzwerk verwenden, überprüfen Sie die Voraussetzungen in "Plan your CycleCloud Workspace for Slurm Deployment".
Geben Sie an, wie die Registrierung des privaten Endpunkts verwaltet wird, der für das Speicherkonto zum Speichern von CycleCloud-Projekten mit einer privaten DNS-Zone verwendet wird. Sie können eine neue private DNS-Zone erstellen, eine vorhandene verwenden oder nicht registrieren.
Slurm-Einstellungen
Geben Sie die Größe und das Image des virtuellen Computers für den Zeitplan und die Authentifizierungsknoten an. Die Bilder sind HPC-Images in Azure Marketplace mit den folgenden URIs:
| Bildname | URI |
|---|---|
| Alma Linux 8.10 | almalinux:almalinux-hpc:8_10-hpc-gen2:latest |
| Ubuntu 20.04 | microsoft-dsvm:ubuntu-hpc:2004:latest |
| Ubuntu 22.04 | microsoft-dsvm:ubuntu-hpc:2204:latest |
| Benutzerdefiniertes Image | Sie müssen einen Bild-URN oder eine Bild-ID angeben. |
Wenn Sie ein Custom ImageBild auswählen, geben Sie einen Bild-URN für ein vorhandenes Marketplace-Image oder eine Bild-ID für ein Bild in einem Azure Compute Gallery an.
Wenn Sie dasselbe Bild für den Zeitplaner, Authentifizierungsknoten und Computeknoten verwenden möchten, wählen Sie "Bild verwenden" auf allen Knoten aus.
Geben Sie die Anzahl der Authentifizierungsknoten an, die Sie anfänglich bereitstellen möchten, und die maximal zulässige Anzahl. Wenn Sie Integritätsprüfungen aktivieren, führt die Lösung automatisch Knotenintegritätsprüfungen für die HPC- und GPU-Partitionen aus und entfernt alle fehlerhaften Knoten. Sie können den Start des Clusters verzögern, wenn Sie weitere Einstellungen über das CycleCloud-Portal konfigurieren müssen.
Um Slurm Job Accounting zu aktivieren, aktivieren Sie das Kontrollkästchen, um Konnektivitätsoptionen anzuzeigen. Stellen Sie sicher, dass Sie über eine flexible Azure-Datenbankressource für MySQL verfügen, die Sie zuvor bereitgestellt haben.
Sie können eine Verbindung mit einem FQDN oder einer privaten IP herstellen, wenn Sie Ihr eigenes virtuelles Netzwerk bereitstellen. Sie können auch virtuelles Netzwerk-Peering verwenden, wenn Sie ein neues virtuelles Netzwerk als Teil Ihrer Bereitstellung erstellen. Wenn Sie ein neues virtuelles Netzwerk erstellen, können Sie auch eine Verbindung über einen privaten Endpunkt herstellen.
Partitionseinstellungen
Azure CycleCloud Workspace für Slurm umfasst drei definierte Slurm-Partitionen:
- HTC: Für hochgradig parallele Nicht-MPI-Aufträge.
- HPC: Für eng gekoppelte MPI-Aufträge, die hauptsächlich VM-Typen mit oder ohne InfiniBand-Unterstützung verwenden.
- GPU: Für MPI- und NICHT-MPI-GPU-Aufträge, die VM-Typen mit oder ohne InfiniBand-Unterstützung verwenden.
Sie können das Image und die maximale Anzahl von Knoten für jede Partition festlegen, die CycleCloud dynamisch erstellt. Nur die HTC-Partition ermöglicht die Verwendung von Spotinstanzen, da Spotinstanzen für HPC- und GPU-Aufträge nicht gut funktionieren.
OnDemand öffnen
Um "OnDemand öffnen" zu verwenden, aktivieren Sie das Kontrollkästchen, und geben Sie die folgenden Informationen ein:
- der Name des Bilds,
- den Domänennamen (
contoso.com), den das System zum Abrufen des Benutzernamens (user@contoso.com) verwendet und mit dem lokalen Linux-Konto (user) übereinstimmt, das CycleCloud für die Authentifizierung verwaltet, - den vollqualifizierten Domänennamen (FQDN) des Open OnDemand-Webservers (leer lassen, wenn Sie die private IP verwenden möchten),
- Unabhängig davon, ob Sie eine vorhandene Microsoft Entra ID-Anwendung verwenden oder eine Anwendung manuell registrieren möchten.
Automatically register Entra ID applicationist eine zusätzliche Option, die nur angezeigt wird, wenn Sie die CLI-Bereitstellung verwenden.
Hinweis
Für die Benutzerauthentifizierung ist eine Microsoft Entra-ID-Anwendung erforderlich. Wenn unsere Skripts keine Anwendung erstellen, erstellen Sie eine anwendung manuell. Weitere Informationen finden Sie unter Registrieren einer Microsoft Entra ID-Anwendung für Open OnDemand.
Fortgeschritten
Sie können Verfügbarkeitszonen für Cluster-Computeknoten und neue Dateisystemressourcen aktivieren. Durch das Platzieren von Computeknoten und Speicher in derselben Verfügbarkeitszone wird eine minimale Latenz zwischen ihnen sichergestellt.
Stichwörter
Weisen Sie die entsprechenden Tags den erforderlichen Ressourcen zu. CycleCloud stellt virtuelle Maschinen dynamisch bereit und wendet ihnen Knotenarray-Tags an.
Überprüfen und erstellen
Überprüfen Sie Ihre Optionen. Dieser Schritt enthält auch einige Überprüfungen.
Wenn die Überprüfungen abgeschlossen sind, wählen Sie "Erstellen" aus, um die Bereitstellung zu initialisieren.
Verfolgen Sie den Bereitstellungsstatus und die Schritte.
Überprüfen Sie die Bereitstellung
Stellen Sie eine Verbindung mit ccw-cyclecloud-vm her, indem Sie Bastion mit dem Benutzernamen und den SSH-Schlüsseln verwenden, die Sie während der Bereitstellung angeben.
Überprüfen Sie nach dem Herstellen der Verbindung die Cloud-Init-Protokolle, um sicherzustellen, dass alles korrekt ist.
$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group:
Cluster nodes:
scheduler: Off -- --
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0]. Up 754.29 seconds
Richten Sie als Nächstes die Konnektivität zwischen Ihrem Clientcomputer und dem virtuellen Computer CycleCloud ein. Ihre IT-Abteilung ihres Unternehmens muss Ihnen möglicherweise bei der Einrichtung der Konnektivität über ein VPN, Bastion-Tunneling oder eine angefügte öffentliche IP helfen, wenn Ihr Unternehmen dies zulässt. Greifen Sie auf die Weboberfläche zu, indem Sie https://<cyclecloud_ip> im Browser öffnen. Melden Sie sich mit dem Benutzernamen und kennwort an, den Sie während der Bereitstellung angeben. Stellen Sie sicher, dass sowohl der Planer als auch der Anmeldeknoten laufen.
Ressourcen
- Registrieren einer Microsoft Entra ID-Anwendung für Open OnDemand
- Konfigurieren von Open OnDemand mit CycleCloud
- Hinzufügen von Benutzern für Open OnDemand
- So stellen Sie eine Verbindung mit dem CycleCloud-Portal über Bastion her
- So stellen Sie eine Verbindung mit einem Anmeldeknoten über Bastion her
- Bereitstellen eines CycleCloud-Arbeitsbereichs für Slurm-Umgebung mithilfe der CLI