Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel wird beschrieben, wie Sie die Kopieraktivität in einer Pipeline verwenden, um Daten aus und in ein Data Warehouse zu kopieren.
Unterstützte Konfiguration
Die Konfiguration der einzelnen Registerkarten unter der Kopieraktivität finden Sie in den folgenden Abschnitten.
Allgemein
Wählen Sie für die Konfiguration der Registerkarte " Allgemein " die Kopieraktivität und dann die Registerkarte " Allgemein " aus.
Quelle
Die folgenden Eigenschaften werden für ein Data Warehouse als Quelle in einer Copy-Aktivität unterstützt.
Die folgenden Eigenschaften sind erforderlich:
Verbindung: Wählen Sie ein Data Warehouse aus der Datenspeicherliste aus.
Abfrage verwenden: Wählen Sie Tabelle, Abfrage oder Gespeicherte Prozedur aus.
Wenn Sie Tabelle auswählen, wählen Sie in der Tabellenliste eine vorhandene Tabelle aus, oder geben Sie manuell einen Tabellennamen an, indem Sie das Feld Bearbeiten auswählen.
Wenn Sie Abfrage auswählen, verwenden Sie den Editor für benutzerdefinierte SQL-Abfragen, um eine SQL-Abfrage für das Abrufen der Quelldaten zu schreiben.
Wenn Sie Gespeicherte Prozedur auswählen, wählen Sie in der Dropdownliste eine vorhandene gespeicherte Prozedur aus, oder geben Sie den Namen einer gespeicherten Prozedur als Quelle an, indem Sie das Feld Bearbeiten auswählen.
Unter Erweitert können Sie die folgenden Felder angeben:
Abfragetimeout (Minuten): Timeout für die Ausführung von Abfragebefehlen mit einem Standardwert von 120 Minuten. Wenn diese Eigenschaft festgelegt ist, haben die zulässigen Werte das Format einer Zeitspanne, z. B. „02:00:00“ (120 Minuten).
Isolationsstufe: Geben Sie das Sperrverhalten für Transaktionen für die SQL-Quelle an.
Partitionsoption: Geben Sie die Datenpartitionierungsoptionen für das Laden von Daten aus dem Data Warehouse an. Sie können Keine oder Dynamischer Bereich auswählen.
Wenn Sie Dynamischer Bereich auswählen, ist der Bereichspartitionsparameter (
?AdfDynamicRangePartitionCondition) erforderlich, wenn eine Abfrage mit aktivierter Parallelität verwendet wird. Beispielabfrage:SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.
-
Partitionsspaltenname: Geben Sie den Namen der Quellspalte als „integer“ oder „date/datetime“ (
int,smallint,bigint,date,smalldatetime,datetime,datetime2oderdatetimeoffset) an, der bei der Bereichspartitionierung für das parallele Kopieren verwendet wird. Ohne Angabe wird der Index oder der Primärschlüssel der Tabelle automatisch erkannt und als Partitionsspalte verwendet. - Partitionsobergrenze: Der maximale Wert der Partitionsspalte für das Teilen des Partitionsbereichs. Dieser Wert wird zur Entscheidung über den Partitionssprung verwendet, nicht zum Filtern der Zeilen in der Tabelle. Alle Zeilen in der Tabelle oder im Abfrageergebnis werden partitioniert und kopiert.
- Partitionsuntergrenze: Der Mindestwert der Partitionsspalte für das Teilen des Partitionsbereichs. Dieser Wert wird zur Entscheidung über den Partitionssprung verwendet, nicht zum Filtern der Zeilen in der Tabelle. Alle Zeilen in der Tabelle oder im Abfrageergebnis werden partitioniert und kopiert.
-
Partitionsspaltenname: Geben Sie den Namen der Quellspalte als „integer“ oder „date/datetime“ (
Zusätzliche Spalten: Fügen Sie zusätzliche Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. Für Letzteres wird ein Ausdruck unterstützt.
Bestimmungsort
Die folgenden Eigenschaften werden für ein Data Warehouse als Ziel in einer Copy-Aktivität unterstützt.
Die folgenden Eigenschaften sind erforderlich:
- Verbindung: Wählen Sie ein Data Warehouse aus der Datenspeicherliste aus.
- Tabelle: Wählen Sie in der Tabellenliste eine vorhandene Tabelle aus, oder geben Sie einen Tabellennamen als Ziel an.
Unter Erweitert können Sie die folgenden Felder angeben:
Kopierbefehlseinstellungen: Geben Sie die Eigenschaften des Kopierbefehls an.
Tabellenoptionen: Geben Sie an, ob die Zieltabelle auf Basis des Quellschemas automatisch erstellt werden soll, wenn sie nicht vorhanden ist. Sie können Keine oder Tabelle automatisch erstellen auswählen.
Skript vor Kopiervorgang: Geben Sie eine SQL-Abfrage an, die bei jeder Ausführung vor dem Schreiben von Daten in das Data Warehouse ausgeführt werden soll. Sie können diese Eigenschaft nutzen, um vorab geladene Daten zu bereinigen.
Zeitlimit für Batchschreibvorgang: Die Wartezeit beim Batcheinfügevorgang, bevor ein Timeout auftritt. Die zulässigen Werte haben das Format einer Zeitspanne. Der Standardwert lautet „00:30:00“ (30 Minuten).
Analyse von Leistungsmetriken deaktivieren: Der Dienst sammelt Metriken für die Optimierung der Kopierleistung und für Empfehlungen. Wenn dieses Feature problematisch sein könnte, deaktivieren Sie es.
Direkte Kopie
Die COPY-Anweisung ist die primäre Methode zum Erfassen von Daten in Warehousetabellen. Der COPY-Befehl für Data Warehouses unterstützt Azure Blob Storage und Azure Data Lake Storage Gen2 direkt als Quelldatenspeicher. Wenn Ihre Quelldaten die in diesem Abschnitt beschriebenen Kriterien erfüllen, können Sie mit dem COPY-Befehl direkt aus dem Quelldatenspeicher in ein Data Warehouse kopieren.
Quelldaten und -format enthalten die folgenden Typen und Authentifizierungsmethoden:
Unterstützter Quelldatenspeicher-Typ Unterstütztes Format Unterstützter Quellauthentifizierungstyp Azure Blob Storage (Speicherdienst von Azure für unstrukturierte Daten) Text mit Trennzeichen
ParkettAnonyme Authentifizierung
Kontoschlüsselauthentifizierung
Organisationskonto
SAS-Authentifizierung (Shared Access Signature)Azure Data Lake Storage Gen2 Text mit Trennzeichen
ParkettKontoschlüsselauthentifizierung
Organisationskonto
SAS-Authentifizierung (Shared Access Signature)Hinweis
- Wenn Sie die Authentifizierung des Organisationskontos für Ihren speichergebundenen Dienst verwenden, lernen Sie die erforderlichen Konfigurationen für Azure Blob Storage bzw. Azure Data Lake Storage Gen2 kennen.
- Wenn Sich Ihr Azure Blob Storage oder Azure Data Lake Storage Gen2 hinter einer Firewall befindet, sollten Sie Ihre Arbeitsbereichsidentität verwenden, um die Firewall zu umgehen. Erfahren Sie mehr über die erforderlichen Konfigurationen in diesem Artikel.
Die folgenden Formateinstellungen können festgelegt werden:
- Für Parquet: Der Komprimierungstyp kann None, snappy oder gzip sein.
- Für DelimitedText:
- Zeilentrennzeichen: Geben Sie beim Kopieren von durch Trennzeichen getrennten Text in ein Data Warehouse über den direkten COPY-Befehl das Zeilentrennzeichen explizit an („\r“ „\n“ oder „\r\n“). Nur wenn das Zeilentrennzeichen der Quelldatei „\r\n“ ist, funktioniert der Standardwert („\r“, „\n“ oder „\r\n“). Aktivieren Sie andernfalls das Staging für Ihr Szenario.
- Sie können den Standardwert NULL-Wert übernehmen oder Leere Zeichenfolge („“) festlegen.
- Für die Codierung können Sie den Standardwert übernehmen oder UTF-8 bzw. UTF-16 festlegen.
- Für die Anzahl übersprungener Zeilen können Sie den Standardwert beibehalten oder 0 (null) festlegen.
- Der Komprimierungstyp kann None oder gzip sein.
Wenn Ihre Quelle ein Ordner ist, müssen Sie das Kontrollkästchen Rekursiv aktivieren.
Startzeit (UTC) und Endzeit (UTC) in Nach letzter Änderung filtern, Präfix, Partitionsermittlung aktivieren und Zusätzliche Spalten werden nicht angegeben.
Informationen zum Erfassen von Daten in Ihrem Data Warehouse mithilfe des COPY-Befehls finden Sie in diesem Artikel.
Wenn der Speicher und das Format der Quelldaten vom COPY-Befehl ursprünglich nicht unterstützt werden, können Sie stattdessen das Feature „Gestaffeltes Kopieren“ mit dem COPY-Befehl verwenden. Es konvertiert die Daten automatisch in ein für den COPY-Befehl kompatibles Format und ruft dann einen COPY-Befehl auf, um Daten in das Data Warehouse zu laden.
gestaffeltem Kopieren
Wenn Ihre Quelldaten nicht nativ mit dem COPY-Befehl kompatibel sind, aktivieren Sie das Kopieren von Daten über einen Stagingspeicher für die Zwischenspeicherung. In diesem Fall konvertiert der Dienst die Daten automatisch, damit das Datenformat den Anforderungen des COPY-Befehls entspricht. Dann wird der COPY-Befehl aufgerufen, um die Daten in Data Warehouse zu laden. Abschließend werden Sie die temporären Daten im Speicher bereinigt. Weitere Informationen zur gestaffelten Kopie finden Sie in diesem Artikel.
Gehen Sie zur Registerkarte Einstellungen und wählen Sie Staging aktivieren aus, um gestaffeltes Kopieren zu verwenden. Sie können Arbeitsbereich auswählen, um in Fabric automatisch erstellten Stagingspeicher zu verwenden. Für Extern werden Azure Blob Storage und Azure Data Lake Storage Gen2 als externe Stagingspeicher unterstützt. Sie müssen zuerst eine Verbindung mit Azure Blob Storage oder Azure Data Lake Storage Gen2 herstellen und dann die Verbindung aus der Einblendliste auswählen, um den Stagingspeicher zu verwenden. Diese Speicheroptionen unterstützen mehrere Authentifizierungstypen. In der folgenden Tabelle sind die unterstützten Optionen zusammengefasst:
| Externer Stagingspeicher | Unterstützte Authentifizierungstypen |
|---|---|
| Azure Blob Storage | Anonym Kontoschlüssel Organisationskonto Signatur für gemeinsam genutzten Zugriff (Shared Access Signature, SAS) |
| Azure Data Lake Storage Gen2 | Kontoschlüssel Organisationskonto Signatur für gemeinsam genutzten Zugriff (Shared Access Signature, SAS) |
Hinweis
- Wenn Sie die Organisationskontoauthentifizierung für Ihren verknüpften Stagingdienst verwenden, lernen Sie die erforderlichen Konfigurationen für Azure Blob Storage bzw. Azure Data Lake Storage Gen2 kennen.
- Wenn Ihr mehrstufiger Azure Blob Storage oder Azure Data Lake Storage Gen2 hinter einer Firewall liegt, sollten Sie Ihre Arbeitsbereichsidentität verwenden, um die Firewall zu umgehen. Erfahren Sie mehr über die erforderlichen Konfigurationen in diesem Artikel.
- Sie müssen sicherstellen, dass der IP-Bereich des Data Warehouse korrekt im Stagingspeicher freigegeben wurde.
Zuordnung
Wenn Sie data Warehouse nicht mit automatischer Erstellungstabelle als Ziel anwenden, wählen Sie für die Registerkartenkonfiguration " Zuordnung " die Kopieraktivität aus, und wählen Sie dann die Registerkarte " Zuordnung " aus.
Wenn Sie nicht Data Warehouse mit sich automatisch erstelelnder Tabelle als Ziel verwenden, können Sie mit Ausnahme der Konfiguration in Zuordnung den Typ für Ihre Zielspalten bearbeiten. Nach dem Auswählen von Importschemas können Sie den Spaltentyp in Ihrem Ziel angeben.
Der Typ für die Spalte ID in der Quelle ist z. B. „int“, und Sie können ihn beim Zuordnen zur Zielspalte in den Typ „Float“ ändern.
Wenn Sie varchar- oder varbinary-Typ für die Zielspalte auswählen, können Sie die Länge für den Typ angeben. Die Länge sollte größer als 0 und kleiner als 8000 sein oder MAX sein (gibt eine maximale Speichergröße von 2¹¹-1 Bytes an). Der Standardwert ist 8000. Weitere Informationen finden Sie in diesem Artikel.
Einstellungen
Wählen Sie für die Registerkartenkonfiguration "Einstellungen " die Kopieraktivität und dann die Registerkarte " Einstellungen " aus.
Tabellenzusammenfassung
Die folgenden Tabellen enthalten weitere Informationen zur Copy-Aktivität in Data Warehouse.
Quellinformationen
| Name | Beschreibung | Wert | Erforderlich | JSON-Skripteigenschaft |
|---|---|---|---|---|
| Datenspeichertyp des Arbeitsbereichs | In diesem Abschnitt wählen Sie den Datenspeichertyp des Arbeitsbereichs aus. | Datenlager | Ja | Typ |
| Datenlager | Das Data Warehouse, das Sie verwenden möchten. | <Ihr Data Warehouse> | Ja | Endpunkt Artikel-ID |
| Abfrage verwenden | Das Verfahren zum Lesen von Daten aus dem Data Warehouse. | • Tabellen • Abfrage • Gespeicherte Prozedur |
Nein |
(unter typeProperties>source)• TypEigenschaften: Schema Tisch • sqlReaderQuery • sqlReaderStoredProcedureName (Name der gespeicherten Prozedur für sqlReader) |
| Abfragetimeout (Minuten) | Timeout für die Ausführung von Abfragebefehlen mit einem Standardwert von 120 Minuten. Wenn diese Eigenschaft festgelegt ist, haben die zulässigen Werte das Format einer Zeitspanne, z. B. „02:00:00“ (120 Minuten). | Zeitraum | Nein | queryTimeout |
| Isolationsstufe | Das Sperrverhalten für Transaktionen für die Quelle. | • Keine •Schnappschuss |
Nein | Isolationsebene |
| Partitionsoption | Die Datenpartitionierungsoptionen, mit denen Daten aus dem Data Warehouse geladen werden. | • Keine • Dynamischer Bereich |
Nein | Partitionierungsoption |
| Partitionsspaltenname | Der Name der Quellspalte als „integer“ oder „date/datetime“ (int, smallint, bigint, date, smalldatetime, datetime, datetime2 oder datetimeoffset), der von der Bereichspartitionierung für das parallele Kopieren verwendet wird. Ohne Angabe wird der Index oder der Primärschlüssel der Tabelle automatisch erkannt und als Partitionsspalte verwendet. |
<Partitionsspaltenname> | Nein | Partitionsspaltenname |
| Partitionsobergrenze | Der maximale Wert der Partitionsspalte für das Teilen des Partitionsbereichs. Dieser Wert wird zur Entscheidung über den Partitionssprung verwendet, nicht zum Filtern der Zeilen in der Tabelle. Alle Zeilen in der Tabelle oder im Abfrageergebnis werden partitioniert und kopiert. | <Partitionsobergrenze> | Nein | Partition-Obergrenze |
| Partitionsuntergrenze | Der minimale Wert der Partitionsspalte für das Teilen des Partitionsbereichs. Dieser Wert wird zur Entscheidung über den Partitionssprung verwendet, nicht zum Filtern der Zeilen in der Tabelle. Alle Zeilen in der Tabelle oder im Abfrageergebnis werden partitioniert und kopiert. | <Partitionsuntergrenze> | Nein | Partitionsuntergrenze |
| Zusätzliche Spalten | Fügen Sie zusätzliche Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. | •Name • Wert |
Nein | additionalColumns: • Name • Wert |
Zielinformationen
| Name | Beschreibung | Wert | Erforderlich | JSON-Skripteigenschaft |
|---|---|---|---|---|
| Datenspeichertyp des Arbeitsbereichs | In diesem Abschnitt wählen Sie den Datenspeichertyp des Arbeitsbereichs aus. | Datenlager | Ja | Typ |
| Datenlager | Das Data Warehouse, das Sie verwenden möchten. | <Ihr Data Warehouse> | Ja | Endpunkt Artikel-ID |
| Tabelle | Die Zieltabelle für das Schreiben von Daten. | <Name Ihrer Zieltabelle> | Ja | Schema Tisch |
| Kopierbefehlseinstellungen | Die Einstellungen für Eigenschaften des Kopierbefehls. Umfasst die Einstellungen für Standardwerte. | Standardwert: • Spalte • Wert |
Nein | Einstellungen für Kopierbefehle defaultValues: • Spaltenname • Standardwert |
| Tabellenoption | Gibt an, ob die Zieltabelle auf Basis des Quellschemas automatisch erstellt werden soll, wenn sie nicht vorhanden ist. | • Keine • Tabelle automatisch erstellen |
Nein | Tabellenoption: • automatisch Erstellen |
| Skript vor Kopiervorgang | Eine SQL-Abfrage, die bei jeder Ausführung vor dem Schreiben von Daten in das Data Warehouse ausgeführt werden soll. Sie können diese Eigenschaft nutzen, um vorab geladene Daten zu bereinigen. | <Skript vor Kopiervorgang> | Nein | preCopyScript |
| Zeitlimit für Batchschreibvorgang | Die Wartezeit beim Batcheinfügevorgang, bevor ein Timeout auftritt. Die zulässigen Werte haben das Format einer Zeitspanne. Der Standardwert lautet „00:30:00“ (30 Minuten). | Zeitraum | Nein | writeBatchTimeout |
| Analyse von Leistungsmetriken deaktivieren | Der Dienst sammelt Metriken für die Leistungsoptimierung von Kopiervorgängen und für Empfehlungen, wodurch zusätzlicher Zugriff auf die Masterdatenbank ermöglicht wird. | Aktivieren oder deaktivieren | Nein | Deaktivierung der Metrik-Sammlung true oder false |
Verwenden von Fabric Warehouse als Spüle mit aktiviertem Staging
Wenn der Stagingspeicherort eine Firewall aktiviert hat, können Zugriffsprobleme auftreten.
Problemumgehungen
- Verschiedene Regionen: Wenn sich die Fabric-Kapazität und der Stagingspeicher in verschiedenen Regionen befinden, stellen Sie sicher, dass die regionalen Data Factory- und Azure SQL-IP-Adressen in der Speicherspeicherortfirewall zulässig sind, um die Konnektivität zu ermöglichen.
- Gleiche Region: Wenn sich die Fabric-Kapazität und der Stagingspeicher in derselben Region befinden und Zugriffsprobleme weiterhin bestehen, wählen Sie einen alternativen Stagingspeicherort in einer anderen Region als die Fabric-Kapazität aus.