Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel werden die Möglichkeiten aufgeführt, wie Sie die inkrementelle Aufnahme aus dem Cloudobjektspeicher konfigurieren können.
Benutzeroberfläche zum Hinzufügen von Daten
Wie Sie die Benutzeroberfläche zum Hinzufügen von Daten verwenden, um eine verwaltete Tabelle aus Daten im Cloud-Objektspeicher zu erstellen, erfahren Sie unter Laden von Daten über einen externen Speicherort im Unity Catalog.
Notebook- oder SQL-Editor
In diesem Abschnitt werden Optionen zum Konfigurieren der inkrementellen Aufnahme aus dem Cloudobjektspeicher mithilfe eines Notebooks oder des Databricks SQL-Editors beschrieben.
Automatischer Lader
Autoloader verarbeitet neue Datendateien inkrementell und effizient, sobald sie im Cloudspeicher eingehen, ohne zusätzliche Einrichtung. Der Autoloader stellt eine strukturierte Streamingquelle namens cloudFiles bereit. Mithilfe eines Eingabeverzeichnispfads im Clouddateispeicher verarbeitet die cloudFiles-Quelle automatisch neue Dateien, sobald diese eingehen. Dabei können auch bereits vorhandene Dateien in diesem Verzeichnis verarbeitet werden.
COPY INTO
Mit COPY INTOkönnen SQL-Benutzer Daten aus dem Cloud-Objektspeicher idempotent und inkrementell in Delta-Tabellen einlesen. Sie können COPY INTO in Databricks SQL, Notizbüchern und Lakeflow-Aufträgen verwenden.
Wann COPY INTO und wann Autoloader verwendet werden soll
Hier sind ein paar Dinge, die Sie bei der Entscheidung zwischen Auto Loader und COPY INTO beachten sollten:
- Wenn Sie Dateien in der Größenordnung von Tausenden über einen längeren Zeitraum hinweg aufnehmen, können Sie
COPY INTOverwenden. Wenn Sie Dateien in der Größenordnung von Millionen oder mehr im Laufe der Zeit erwarten, verwenden Sie Autoloader. Auto Loader benötigt im Vergleich zuCOPY INTOinsgesamt weniger Vorgänge zum Auffinden von Dateien und kann die Verarbeitung in mehrere Stapel aufteilen. Das bedeutet, dass Auto Loader im großen kostengünstiger und effizienter ist. - Wenn Ihr Datenschema häufig weiterentwickelt wird, bietet Autoloader bessere Grunddatentypen für Schemarückschluss und -entwicklung. Weitere Informationen finden Sie unter Schemarückschluss und -entwicklung in Autoloader konfigurieren.
- Das Laden einer Teilmenge von erneut hochgeladenen Dateien kann mit
COPY INTOetwas einfacher zu verwalten sein. Bei automatischem Laden ist es schwieriger, eine ausgewählte Teilmenge von Dateien neu zu verarbeiten. Sie können jedochCOPY INTOverwenden, um die Teilmenge der Dateien erneut zu laden, während ein Stream des Auto Loaders gleichzeitig ausgeführt wird.
- Für eine noch skalierbarere und robustere Dateierfassung ermöglicht Auto Loader SQL-Benutzern die Nutzung von Streamingtabellen. Siehe Verwenden von Streamingtabellen in Databricks SQL.
Eine kurze Übersicht und Demonstration des Auto Loaders sowie COPY INTO finden Sie in diesem YouTube-Video (2 Minuten).
Automatisieren Sie ETL-Prozesse mit den deklarativen Lakeflow Spark-Pipelines und Auto Loader.
Sie können die Bereitstellung einer skalierbaren, inkrementellen Erfassungsinfrastruktur mit Auto Loader und Lakeflow Spark Declarative Pipelines vereinfachen. Lakeflow Spark Declarative Pipelines verwendet nicht die standardmäßige interaktive Ausführung in Notizbüchern, sondern betont die Bereitstellung der Infrastruktur, die für den Produktionseinsatz bereitsteht.
- Lernprogramm: Erstellen einer ETL-Pipeline mit Lakeflow Spark Declarative Pipelines
- Onboarding von Daten aus Azure Data Lake Storage
Ingestionstools von einem Drittanbieter
Databricks validiert die Integration von Technologiepartnern, die Ihnen die Aufnahme von Daten aus verschiedenen Quellen, einschließlich Cloud-Objektspeicher, ermöglichen. Diese Integrationen ermöglichen eine einfach zu implementierende und skalierbare Datenerfassung aus verschiedenen Quellen in Azure Databricks mit nur wenig Code. Siehe Technologiepartner. Einige Technologiepartner werden in Was ist Databricks Partner Connect? vorgestellt, das eine Benutzeroberfläche bietet, die das Verbinden von Drittanbietertools mit Ihren Lakehouse-Daten vereinfacht.