Freigeben über


Massenkopie von Daten aus einer Datenbank nach Azure Data Explorer mithilfe der Azure Data Factory-Vorlage

Azure Data Explorer ist ein schneller, vollständig verwalteter Datenanalysedienst. Es bietet Echtzeitanalysen für große Datenmengen, die aus vielen Quellen streamen, z. B. Anwendungen, Websites und IoT-Geräte.

Um Daten aus einer Datenbank in Oracle Server, Netezza, Teradata oder SQL Server in Azure Data Explorer zu kopieren, müssen Sie große Datenmengen aus mehreren Tabellen laden. In der Regel müssen die Daten in den einzelnen Tabellen partitioniert werden, um Zeilen mit mehreren Threads parallel aus einer einzelnen Tabelle laden zu können. In diesem Artikel wird eine Vorlage für diese Szenarios beschrieben.

Azure Data Factory-Vorlagen sind vordefinierte Data Factory-Pipelines. Diese Vorlagen können Ihnen helfen, schnell mit Data Factory zu beginnen und die Entwicklungszeit für Datenintegrationsprojekte zu reduzieren.

Sie erstellen die Vorlage zum Massenkopieren aus der Datenbank in Azure Data Explorer mithilfe von Lookup- und ForEach-Aktivitäten. Zum schnelleren Kopieren von Daten können Sie die Vorlage verwenden, um viele Pipelines pro Datenbank oder pro Tabelle zu erstellen.

Von Bedeutung

Achten Sie darauf, das Tool zu verwenden, das für die Datenmenge geeignet ist, die Sie kopieren möchten.

  • Verwenden Sie die Vorlage " Massenkopie aus Datenbank in Azure Data Explorer ", um große Datenmengen aus Datenbanken wie SQL Server und Google BigQuery in Azure Data Explorer zu kopieren.
  • Verwenden Sie das Data Factory Copy Data Tool , um einige Tabellen mit kleinen oder moderaten Datenmengen in Azure Data Explorer zu kopieren.

Voraussetzungen

Erstellen von ControlTableDataset

ControlTableDataset gibt an, welche Daten aus der Quelle in das Ziel in der Pipeline kopiert werden. Die Anzahl der Zeilen gibt die Gesamtanzahl der Pipelines an, die zum Kopieren der Daten erforderlich sind. Sie sollten ControlTableDataset als Teil der Quelldatenbank definieren.

Ein Beispiel für das SQL Server-Quelltabellenformat ist im folgenden Code dargestellt:

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

Die Codeelemente werden in der folgenden Tabelle beschrieben:

Eigentum BESCHREIBUNG Beispiel
PartitionId Der Kopierauftrag 1
SourceQuery Die Abfrage, die angibt, welche Daten während der Pipelinelaufzeit kopiert werden
select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
ADXTableName Der Name der Zieltabelle MyAdxTable

Wenn Ihr ControlTableDataset in einem anderen Format vorliegt, erstellen Sie ein vergleichbares ControlTableDataset für Ihr Format.

Verwenden der Vorlage zum Massenkopieren aus einer Datenbank in Azure Data Explorer

  1. Wählen Sie im Bereich " Erste Schritte " die Option "Pipeline aus Vorlage erstellen" aus , um den Vorlagenkatalogbereich zu öffnen.

    Der Bereich

  2. Wählen Sie die Vorlage "Massenkopie von Datenbank zu Azure Data Explorer" aus.

    Die Vorlage

  3. Geben Sie im Bereich "Massenkopie aus Datenbank in Azure Data Explorer" unter "Benutzereingaben" die Datensätze wie folgt an:

    a) Wählen Sie in der Dropdownliste " ControlTableDataset " den verknüpften Dienst mit der Steuerelementtabelle aus, der angibt, welche Daten aus der Quelle in das Ziel kopiert werden und wo sie im Ziel platziert werden.

    b. Wählen Sie in der Dropdownliste "SourceDataset " den verknüpften Dienst mit der Quelldatenbank aus.

    Abschnitt c. Wählen Sie in der Dropdownliste "AzureDataExplorerTable " die Azure Data Explorer-Tabelle aus. Wenn das Dataset nicht vorhanden ist, erstellen Sie den verknüpften Azure-Daten-Explorer-Dienst , um das Dataset hinzuzufügen.

    d. Wählen Sie Diese Vorlage verwenden aus.

    Bereich „Massenkopieren aus einer Datenbank in Azure Data Explorer“

  4. Wählen Sie einen Bereich in der Canvas außerhalb der Aktivitäten aus, um auf die Vorlagenpipeline zuzugreifen. Wählen Sie die Registerkarte "Parameter " aus, um die Parameter für die Tabelle einzugeben, einschließlich Name (Steuerelementtabellenname) und Standardwert (Spaltennamen).

    Pipelineparameter

  5. Wählen Sie unter Lookup die Option GetPartitionList aus, um die Standardeinstellungen anzuzeigen. Die Abfrage wird automatisch erstellt.

  6. Wählen Sie die Befehlsaktivität ForEachPartition aus, wählen Sie die Registerkarte "Einstellungen " aus, und führen Sie dann die folgenden Aktionen aus:

    a) Geben Sie im Feld "Batchanzahl " eine Zahl zwischen 1 und 50 ein. Diese Auswahl bestimmt die Anzahl der Pipelines, die parallel ausgeführt werden, bis die Anzahl der ControlTableDataset-Zeilen erreicht ist.

    b. Um sicherzustellen, dass die Pipelinebatches parallel ausgeführt werden, aktivieren Sie nicht das Kontrollkästchen Sequenziell.

    ForEachPartition-Einstellungen.

    Tipp

    Die bewährte Methode besteht darin, viele Pipelines parallel auszuführen, damit Ihre Daten schneller kopiert werden können. Um die Effizienz zu erhöhen, partitionieren Sie die Daten in der Quelltabelle, und weisen Sie je nach Datum und Tabelle eine Partition pro Pipeline zu.

  7. Wählen Sie " Alle überprüfen" aus, um die Azure Data Factory-Pipeline zu überprüfen, und zeigen Sie dann das Ergebnis im Bereich "Pipelineüberprüfungsausgabe " an.

    Validiere Vorlagenpipelines.

  8. Wählen Sie bei Bedarf "Debuggen" und dann " Trigger hinzufügen " aus, um die Pipeline auszuführen.

    Die Schaltflächen

Sie können jetzt die Vorlage verwenden, um große Datenmengen effizient aus Ihren Datenbanken und Tabellen zu kopieren.