Wie man S3 für die HDFS-Tierarchisierung in einem Big-Data-Cluster einbindet

Die folgenden Abschnitte enthalten ein Beispiel für die Konfiguration von HDFS-Tiering mit einer S3-Speicher als Datenquelle.

Important

Die Big Data Cluster von Microsoft SQL Server 2019 werden eingestellt. Der Support für SQL Server 2019 Big Data Cluster endete am 28. Februar 2025. Weitere Informationen finden Sie im Ankündigungsblogbeitrag und den Big Data-Optionen auf der Microsoft SQL Server-Plattform.

Prerequisites

Bereitgestellte Big Data-Cluster
Big-Data-Tools
- azdata
- kubectl
Erstellen und Hochladen von Daten in einen S3-Bucket
- Laden Sie CSV- oder Parkettdateien in Ihren S3-Bucket hoch. Dies sind die externen HDFS-Daten, die in HDFS im Big Data-Cluster eingehängt werden.

Access keys

Umgebungsvariable für Zugriffsschlüssel-Anmeldeinformationen festlegen

Öffnen Sie eine Eingabeaufforderung auf einem Clientcomputer, der auf Ihren Big Data-Cluster zugreifen kann. Legen Sie eine Umgebungsvariable mit dem folgenden Format fest. Die Anmeldeinformationen müssen sich in einer durch Trennzeichen getrennten Liste befinden. Der Befehl "set" wird unter Windows verwendet. Wenn Sie Linux verwenden, verwenden Sie stattdessen "Export".

 set MOUNT_CREDENTIALS=fs.s3a.access.key=<Access Key ID of the key>,
 fs.s3a.secret.key=<Secret Access Key of the key>

Tip

Weitere Informationen zum Erstellen von S3-Zugriffstasten finden Sie unter S3-Zugriffstasten.

Bereitstellen des Remote-HDFS-Speichers

Nachdem Sie nun eine Anmeldeinformationsdatei mit Zugriffsschlüsseln vorbereitet haben, können Sie jetzt mit der Einbindung beginnen. Die folgenden Schritte binden den Remote-HDFS-Speicher in S3 an den lokalen HDFS-Speicher Ihres Big Data-Clusters ein.

Verwenden Sie Kubectl , um die IP-Adresse für den externen Endpunktcontroller-svc-externen Dienst in Ihrem Big Data-Cluster zu finden. Suchen Sie nach der externen IP.
```
kubectl get svc controller-svc-external -n <your-big-data-cluster-name>
```
Melden Sie sich mit azdata mit der externen IP-Adresse des Controllerendpunkts mit Ihrem Clusterbenutzernamen und Kennwort an:
```
azdata login -e https://<IP-of-controller-svc-external>:30080/
```
Festlegen der Umgebungsvariablen MOUNT_CREDENTIALS nach den obigen Anweisungen
Montieren Sie den Remote-HDFS-Speicher in Azure mit azdata bdc hdfs mount create. Ersetzen Sie die Platzhalterwerte, bevor Sie den folgenden Befehl ausführen:
```
azdata bdc hdfs mount create --remote-uri s3a://<S3 bucket name> --mount-path /mounts/<mount-name>
```
Note

Der Mount-Befehl zur Erstellung ist asynchron. Zurzeit gibt es keine Meldung, die angibt, ob die Einbindung erfolgreich war. Sehen Sie sich den Statusabschnitt an, um den Status Ihrer Montierungen zu überprüfen.

Wenn die Bereitstellung erfolgreich durchgeführt wurde, sollten Sie in der Lage sein, die HDFS-Daten abzufragen und Spark-Aufträge auszuführen. Sie wird in der HDFS für Ihren Big Data-Cluster an der angegebenen --mount-pathPosition angezeigt.

Abrufen des Status von Einbindungen

Verwenden Sie den folgenden Befehl, um den Status aller Bereitstellungen in Ihrem Big Data-Cluster auflisten zu können:

azdata bdc hdfs mount status

Verwenden Sie den folgenden Befehl, um den Status einer Einbindung an einem bestimmten Pfad in HDFS aufzulisten:

azdata bdc hdfs mount status --mount-path <mount-path-in-hdfs>

Aktualisieren eines Einhängepunkts

Im folgenden Beispiel wird die Einbindung aktualisiert.

azdata bdc hdfs mount refresh --mount-path <mount-path-in-hdfs>

Einhängepunkt löschen

Um die Einbindung zu löschen, verwenden Sie den azdata bdc hdfs mount delete Befehl und geben Sie den Einbindungspfad in HDFS an.

azdata bdc hdfs mount delete --mount-path <mount-path-in-hdfs>

Konfigurieren von HDFS-Tiering in SQL Server Big Data Clustern

Last updated on 2023-12-04

Freigeben über