Erfassen von Daten aus Cloudobjektspeicher

In diesem Artikel werden die Möglichkeiten aufgeführt, wie Sie die inkrementelle Aufnahme aus dem Cloudobjektspeicher konfigurieren können.

Benutzeroberfläche zum Hinzufügen von Daten

Wie Sie die Benutzeroberfläche zum Hinzufügen von Daten verwenden, um eine verwaltete Tabelle aus Daten im Cloud-Objektspeicher zu erstellen, erfahren Sie unter Laden von Daten über einen externen Speicherort im Unity Catalog.

Notebook- oder SQL-Editor

In diesem Abschnitt werden Optionen zum Konfigurieren der inkrementellen Aufnahme aus dem Cloudobjektspeicher mithilfe eines Notebooks oder des Databricks SQL-Editors beschrieben.

Automatischer Lader

Autoloader verarbeitet neue Datendateien inkrementell und effizient, sobald sie im Cloudspeicher eingehen, ohne zusätzliche Einrichtung. Der Autoloader stellt eine strukturierte Streamingquelle namens cloudFiles bereit. Mithilfe eines Eingabeverzeichnispfads im Clouddateispeicher verarbeitet die cloudFiles-Quelle automatisch neue Dateien, sobald diese eingehen. Dabei können auch bereits vorhandene Dateien in diesem Verzeichnis verarbeitet werden.

COPY INTO

Mit COPY INTOkönnen SQL-Benutzer Daten aus dem Cloud-Objektspeicher idempotent und inkrementell in Delta-Tabellen einlesen. Sie können COPY INTO in Databricks SQL, Notizbüchern und Lakeflow-Aufträgen verwenden.

Wann COPY INTO und wann Autoloader verwendet werden soll

Hier sind ein paar Dinge, die Sie bei der Entscheidung zwischen Auto Loader und COPY INTO beachten sollten:

Wenn Sie Dateien in der Größenordnung von Tausenden über einen längeren Zeitraum hinweg aufnehmen, können Sie COPY INTO verwenden. Wenn Sie Dateien in der Größenordnung von Millionen oder mehr im Laufe der Zeit erwarten, verwenden Sie Autoloader. Auto Loader benötigt im Vergleich zu COPY INTO insgesamt weniger Vorgänge zum Auffinden von Dateien und kann die Verarbeitung in mehrere Stapel aufteilen. Das bedeutet, dass Auto Loader im großen kostengünstiger und effizienter ist.
Wenn Ihr Datenschema häufig weiterentwickelt wird, bietet Autoloader bessere Grunddatentypen für Schemarückschluss und -entwicklung. Weitere Informationen finden Sie unter Schemarückschluss und -entwicklung in Autoloader konfigurieren.
Das Laden einer Teilmenge von erneut hochgeladenen Dateien kann mit COPY INTO etwas einfacher zu verwalten sein. Bei automatischem Laden ist es schwieriger, eine ausgewählte Teilmenge von Dateien neu zu verarbeiten. Sie können jedoch COPY INTO verwenden, um die Teilmenge der Dateien erneut zu laden, während ein Stream des Auto Loaders gleichzeitig ausgeführt wird.

Für eine noch skalierbarere und robustere Dateierfassung ermöglicht Auto Loader SQL-Benutzern die Nutzung von Streamingtabellen. Siehe Verwenden von Streamingtabellen in Databricks SQL.

Eine kurze Übersicht und Demonstration des Auto Loaders sowie COPY INTO finden Sie in diesem YouTube-Video (2 Minuten).

Automatisieren Sie ETL-Prozesse mit den deklarativen Lakeflow Spark-Pipelines und Auto Loader.

Sie können die Bereitstellung einer skalierbaren, inkrementellen Erfassungsinfrastruktur mit Auto Loader und Lakeflow Spark Declarative Pipelines vereinfachen. Lakeflow Spark Declarative Pipelines verwendet nicht die standardmäßige interaktive Ausführung in Notizbüchern, sondern betont die Bereitstellung der Infrastruktur, die für den Produktionseinsatz bereitsteht.

Streamingtabellen

Ingestionstools von einem Drittanbieter

Databricks validiert die Integration von Technologiepartnern, die Ihnen die Aufnahme von Daten aus verschiedenen Quellen, einschließlich Cloud-Objektspeicher, ermöglichen. Diese Integrationen ermöglichen eine einfach zu implementierende und skalierbare Datenerfassung aus verschiedenen Quellen in Azure Databricks mit nur wenig Code. Siehe Technologiepartner. Einige Technologiepartner werden in Was ist Databricks Partner Connect? vorgestellt, das eine Benutzeroberfläche bietet, die das Verbinden von Drittanbietertools mit Ihren Lakehouse-Daten vereinfacht.

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-13