Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel wird beschrieben, wie Sie die Kopieraktivität in einer Pipeline verwenden, um Daten aus und in Google Cloud Storage zu kopieren.
Voraussetzungen
Das folgende Setup ist für Ihr Google Cloud Storage-Konto erforderlich:
Aktivieren Sie die Interoperabilität für Ihr Google Cloud Storage-Konto.
Legen Sie das Standardprojekt fest, das die Daten enthält, die Sie aus dem Google Cloud Storage-Ziel-Bucket kopieren möchten.
Erstellen Sie ein Dienstkonto, und definieren Sie die richtigen Berechtigungsstufen mithilfe von Cloud IAM auf GCP.
Generieren Sie die Zugangsschlüssel für dieses Dienstkonto.
Erforderliche Berechtigungen
Um Daten aus Google Cloud Storage zu kopieren, stellen Sie sicher, dass Ihnen die folgenden Berechtigungen für Objektvorgänge erteilt wurden: storage.objects.get und storage.objects.list.
Darüber hinaus storage.buckets.list ist die Berechtigung für Vorgänge wie das Testen der Verbindung und das Browsen vom Root-Verzeichnis erforderlich.
Die vollständige Liste der Google Cloud Storage-Rollen und zugehörigen Berechtigungen finden Sie in den IAM-Rollen für Cloud Storage auf der Google Cloud-Website.
Unterstütztes Format:
Google Cloud Storage unterstützt die folgenden Dateiformate. Informationen zu formatbasierten Einstellungen finden Sie in den jeweiligen Artikeln.
- Avro-Format
- Binärformat
- Textformat mit Trennzeichen
- Excel-Format
- JSON-Format
- ORC-Format
- Parquet-Format
- XML-Format
Unterstützte Konfiguration
Die Konfiguration der einzelnen Registerkarten unter der Copy-Aktivität finden Sie in den folgenden Abschnitten.
Allgemein
Wechseln Sie für die Konfiguration der Registerkarte "Allgemein " zu " Allgemein".
Quelle
Die folgenden Eigenschaften werden für Google Cloud Storage auf der Registerkarte " Quelle " einer Kopieraktivität unterstützt.
Die folgenden Eigenschaften sind erforderlich:
Verbindung: Wählen Sie eine Google Cloud Storage-Verbindung aus der Verbindungsliste aus. Wenn keine Verbindung vorhanden ist, erstellen Sie eine neue Google Cloud Storage-Verbindung, indem Sie "Neu" auswählen.
Dateipfadtyp: Sie können Dateipfad, Präfix, Wildcarddateipfad oder Dateiliste als Dateipfadtyp auswählen. Die Konfiguration jeder dieser Einstellungen lautet:
Dateipfad: Wenn Sie diesen Typ auswählen, können die Daten aus dem angegebenen Bucket- oder Ordner-/Dateipfad kopiert werden, der im Dateipfad angegeben ist.
Präfix: Wenn Sie diesen Typ auswählen, geben Sie den Bucket und das Präfix an.
Bucket: Geben Sie den Namen des Google Cloud Storage-Buckets an. Es ist erforderlich.
Präfix: Präfix für den Namen des Google Cloud Storage-Schlüssels unter dem angegebenen Bucket zum Filtern von Google Cloud Storage-Dateien. Google Cloud Storage-Schlüssel, deren Namen beginnen
given_bucket/this_prefix, werden ausgewählt. Es verwendet den dienstseitigen Filter von Google Cloud Storage, der eine bessere Leistung als ein Wildcardfilter bietet.
Wildcard-Dateipfad: Wenn Sie diesen Typ wählen, geben Sie den Bucket und die Wildcard-Pfade an.
Bucket: Geben Sie den Namen des Google Cloud Storage-Buckets an. Es ist erforderlich.
Wildcardpfade: Geben Sie den Ordner- oder Dateipfad mit Wildcardzeichen innerhalb des angegebenen Buckets an, um die Quellordner oder -dateien zu filtern.
Zulässige Wildcards sind:
*(entspricht null oder mehr Zeichen) und?(entspricht null oder einzelnem Zeichen). Verwenden Sie^, um zu escapen, wenn der Ordnername einen Platzhalter oder das Escape-Zeichen enthält. Weitere Beispiele können Sie zu Ordner- und Dateifilterbeispielen aufrufen.
Pfad des Ordners "Wildcard": Geben Sie den Ordnerpfad mit Wildcardzeichen unter dem angegebenen Bucket an, um Quellordner zu filtern.
Name der Wildcarddatei: Geben Sie den Dateinamen mit Wildcardzeichen unter dem angegebenen Bucket- und Ordnerpfad (oder Pfad des Wildcardordners) an, um Quelldateien zu filtern.
Liste der Dateien: Wenn Sie diesen Typ auswählen, geben Sie den Ordnerpfad und den Pfad zur Dateiliste an, der angibt, dass ein bestimmter Dateisatz kopiert werden soll. Zeigen Sie auf eine Textdatei, die eine Liste von Dateien enthält, die Sie kopieren möchten, eine Datei pro Zeile, bei der es sich um den relativen Pfad zum konfigurierten Pfad handelt. Weitere Beispiele hierzu sind die Dateilistenbeispiele.
- Ordnerpfad: Geben Sie den Pfad zum Ordner unter dem angegebenen Bucket an. Es ist erforderlich.
- Pfad zur Dateiliste: Geben Sie den Pfad der Textdatei an, die eine Liste von Dateien enthält, die Sie kopieren möchten.
Rekursiv: Gibt an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Beachten Sie, dass beim Aktivieren dieses Kontrollkästchens und das Ziel ein dateibasierter Speicher ist, kein leerer Ordner oder Unterordner am Ziel kopiert oder erstellt wird.
Dateiformat: Wählen Sie das in der Dropdownliste angewendete Dateiformat aus. Wählen Sie "Einstellungen" aus, um das Dateiformat zu konfigurieren. Informationen zu Einstellungen verschiedener Dateiformate finden Sie in Artikeln unter Supported format für ausführliche Informationen.
Unter "Erweitert" können Sie die folgenden Felder angeben:
Filtern nach letzter Änderung: Dateien werden basierend auf den von Ihnen angegebenen Datumsangaben der letzten Änderung gefiltert. Diese Eigenschaft gilt nicht, wenn Sie den Dateipfadtyp als Liste der Dateien konfigurieren.
- Startzeit (UTC): Die Dateien werden ausgewählt, wenn die Uhrzeit der letzten Änderung größer oder gleich der konfigurierten Zeit ist.
- Endzeit (UTC): Die Dateien werden ausgewählt, wenn die Zeit der letzten Änderung kleiner als die konfigurierte Zeit ist.
Wenn "Startzeit" (UTC) den Wert "Datetime" aufweist, die Endzeit (UTC) jedoch NULL ist, bedeutet dies, dass die Dateien, deren letztes geändertes Attribut größer oder gleich dem Datetime-Wert ist, ausgewählt werden. Wenn die Endzeit (UTC) den Datums-/Uhrzeitwert aufweist, aber die Startzeit (UTC) NULL ist, bedeutet dies, dass die Dateien, deren zuletzt geändertes Attribut kleiner als der Datetime-Wert ist, ausgewählt werden. Die Eigenschaften können NULL sein, was bedeutet, dass keine Dateiattributefilter auf die Daten angewendet werden.
Partitionsermittlung aktivieren: Geben Sie an, ob die Partitionen aus dem Dateipfad analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen. Sie ist standardmäßig nicht ausgewählt und wird nicht unterstützt, wenn Sie das Binärdateiformat verwenden.
Partitionsstammpfad: Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammpfad an, um partitionierte Ordner als Datenspalten zu lesen.
Wenn nichts anderes angegeben ist, erfolgt dies standardmäßig.
- Wenn Sie den Dateipfad oder die Liste der Dateien auf der Quelle verwenden, ist der Partitionsstammpfad der von Ihnen konfigurierte Pfad.
- Wenn Sie den Ordnerfilter mit einem Wildcard verwenden, ist der Partitionsstammpfad der Unterpfad vor dem ersten Wildcard.
- Wenn Sie das Präfix verwenden, ist der Partitionsstammpfad vor dem letzten "/" Unterpfad.
Angenommen, Sie konfigurieren den Pfad wie
root/folder/year=2020/month=08/day=27:- Wenn Sie den Partitionsstammpfad als
root/folder/year=2020angeben, generiert die Kopieraktivität zusätzlich zu den Spalten in den Dateien zwei weitere Spalten Monat und Tag mit dem Wert "08" bzw. "27". - Wenn kein Partitionsstammpfad angegeben ist, wird keine zusätzliche Spalte generiert.
Maximale gleichzeitige Verbindung: Die obere Grenze der gleichzeitigen Verbindungen, die während der Aktivitätsausführung mit dem Datenspeicher hergestellt wurden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.
Zusätzliche Spalten: Fügen Sie zusätzliche Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. Für Letzteres wird ein Ausdruck unterstützt.
Bestimmungsort
Die folgenden Eigenschaften werden für Google Cloud Storage auf der Registerkarte "Ziel " einer Kopieraktivität unterstützt.
Die folgenden Eigenschaften sind erforderlich:
- Verbindung: Wählen Sie eine Google Cloud Storage-Verbindung aus der Verbindungsliste aus. Wenn keine Verbindung vorhanden ist, erstellen Sie eine neue Google Cloud Storage-Verbindung, indem Sie "Neu" auswählen.
- Dateipfad: Die Daten können in den angegebenen Bucket oder den angegebenen Bucket- und Ordnerpfad kopiert werden.
- Dateiformat: Wählen Sie das in der Dropdownliste angewendete Dateiformat aus. Wählen Sie "Einstellungen" aus, um das Dateiformat zu konfigurieren. Informationen zu Einstellungen verschiedener Dateiformate finden Sie in Artikeln unter Supported format für ausführliche Informationen.
Unter "Erweitert" können Sie die folgenden Felder angeben:
Kopierverhalten: Definiert das Kopierverhalten, wenn die Quelle Dateien aus einem dateibasierten Datenspeicher ist. Sie können eine Verhaltensweise aus der Dropdownliste auswählen.
- Flache Hierarchie: Alle Dateien aus dem Quellordner befinden sich auf der ersten Ebene des Zielordners. Die Zieldateien haben automatisch generierte Namen.
- Zusammenführen von Dateien: Führt alle Dateien aus dem Quellordner mit einer Datei zusammen. Wenn der Dateiname angegeben wurde, entspricht der zusammengeführte Dateiname dem angegebenen Namen. Andernfalls handelt es sich um einen automatisch generierten Dateinamen.
- Hierarchie beibehalten: Behält die Dateihierarchie im Zielordner bei. Der relative Pfad der Quelldatei zum Quellordner ist identisch mit dem relativen Pfad der Zieldatei zum Zielordner.
Max. gleichzeitige Verbindungen: Diese Eigenschaft gibt die obere Grenze der gleichzeitigen Verbindungen an, die während der Aktivitätsausführung mit dem Datenspeicher hergestellt wurden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.
Kartierung
Informationen zur Konfiguration der Registerkarte " Zuordnung " finden Sie unter "Konfigurieren Ihrer Zuordnungen" auf der Registerkarte "Zuordnung". Wenn Sie "Binary" als Dateiformat auswählen, wird die Zuordnung nicht unterstützt.
Einstellungen
Wechseln Sie für die Konfiguration der Registerkarte "Einstellungen" zu "Andere Einstellungen unter der Registerkarte konfigurieren".
Tabellenzusammenfassung
Die folgenden Tabellen enthalten weitere Informationen zur Kopieraktivität in Google Cloud Storage.
Quellinformationen
| Name | Description | Wert | Erforderlich | JSON-Skripteigenschaft |
|---|---|---|---|---|
| Verbindung | Ihre Verbindung zum Quelldatenspeicher. | <Ihre Google Cloud Storage-Verbindung> | Yes | connection |
| Dateipfadtyp | Der Dateipfadtyp, der zum Abrufen von Quelldaten verwendet wird. | • Dateipfad • Präfix • Pfad der Wildcarddatei • Liste der Dateien |
Yes | / |
| Für Dateipfad | ||||
| Bucket | Der Name des Google Cloud Storage-Buckets. | <Ihr Bucket-Name> | Yes | bucketName |
| Verzeichnis | Der Pfad zum Ordner unter dem angegebenen Bucket. | <Ihr Ordnername> | Nein | folderpath |
| Dateiname | Der Dateiname unter dem angegebenen Bucket- und Ordnerpfad. | <Ihr Dateiname> | Nein | fileName |
| Für Präfix | ||||
| Bucket | Der Name des Google Cloud Storage-Buckets. | <Ihr Bucket-Name> | Yes | bucketName |
| prefix | Das Präfix für den Namen des Google Cloud Storage-Schlüssels unter dem angegebenen Bucket zum Filtern von Google Cloud Storage-Dateien. | <Ihr Präfix> | Nein | prefix |
| Für Den Pfad der Wildcard-Datei | ||||
| Bucket | Der Name des Google Cloud Storage-Buckets. | <Ihr Bucket-Name> | Yes | bucketName |
| Pfad des Ordners "Wildcard" | Der Ordnerpfad mit Wildcardzeichen unter dem angegebenen Bucket zum Filtern von Quellordnern. | <Ihr Ordnerpfad mit Wildcardzeichen> | Nein | wildcardFolderPath |
| Wildcard-Dateiname | Der Dateiname mit Wildcardzeichen unter dem angegebenen Bucket- und Ordnerpfad (oder Pfad des Wildcardordners), um Quelldateien zu filtern. | <Dateiname mit Wildcardzeichen> | Yes | wildcardFileName |
| Für die Liste der Dateien | ||||
| Bucket | Der Name des Google Cloud Storage-Buckets. | <Ihr Bucket-Name> | Yes | bucketName |
| Verzeichnis | Der Pfad zum Ordner unter dem angegebenen Bucket. | <Ihr Ordnername> | Nein | folderpath |
| Pfad zur Dateiliste | Gibt an, dass eine bestimmte Dateigruppe kopiert werden soll. Zeigen Sie auf eine Textdatei, die eine Liste von Dateien enthält, die Sie kopieren möchten, eine Datei pro Zeile. | < Dateilistenpfad > | Nein | fileListPath |
| Dateiformat | Das Dateiformat für die Quelldaten. Um Informationen zu verschiedenen Dateiformaten zu erhalten, lesen Sie die Artikel im Abschnitt Unterstützte Formate für ausführliche Details. | / | Yes | / |
| Rekursiv | Gibt an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Beachten Sie, dass beim Aktivieren dieses Kontrollkästchens und das Ziel ein dateibasierter Speicher ist, kein leerer Ordner oder Unterordner am Ziel kopiert oder erstellt wird. | ausgewählt (Standard) oder Auswahl aufheben | Nein | recursive |
| Nach der letzten Änderung filtern | Die Dateien mit der letzten Änderungszeit im Bereich [Startzeit, Endzeit) werden zur weiteren Verarbeitung gefiltert. Die Uhrzeit wird im Format der yyyy-mm-ddThh:mm:ss.fffZUTC-Zeitzone angewendet. Diese Eigenschaften können übersprungen werden, was bedeutet, dass kein Dateiattributefilter angewendet wird. Diese Eigenschaft gilt nicht, wenn Sie den Dateipfadtyp als Liste der Dateien konfigurieren. |
Datum/Uhrzeit | Nein | modifiedDatetimeStart modifiedDatetimeEnd |
| Aktivieren der Partitionsermittlung | Gibt an, ob die Partitionen aus dem Dateipfad analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen. | Aktiviert oder deaktiviert (Standardwert) | Nein | enablePartitionDiscovery: TRUE oder FALSE (Standardwert) |
| Partitionsstammpfad | Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammpfad an, um partitionierte Ordner als Datenspalten zu lesen. | < Ihr Partitionsstammpfad > | Nein | partitionRootPath |
| Max. gleichzeitige Verbindungen | Die Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten. | <Maximal zulässige Anzahl paralleler Verbindungen> | Nein | maxConcurrentConnections |
| Zusätzliche Spalten | Fügen Sie zusätzliche Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. Für Letzteres wird ein Ausdruck unterstützt. | • Name •Wert |
Nein | zusätzlicheSpalten: •Name • Wert |
Zielinformationen
| Name | Description | Wert | Erforderlich | JSON-Skripteigenschaft |
|---|---|---|---|---|
| Verbindung | Ihre Verbindung zum Zieldatenspeicher. | <Ihre Google Cloud Storage-Verbindung> | Yes | connection |
| Dateipfad | Der Ordner/Dateipfad zur Zieldatei. | < Ordner-/Dateipfad> | Yes | / |
| Bucket | Der Name des Google Cloud Storage-Buckets. | <Ihr Bucket-Name> | Yes | bucketName |
| Verzeichnis | Der Pfad zum Ordner unter dem angegebenen Bucket. | <Ihr Ordnername> | Nein | folderpath |
| Dateiname | Der Dateiname unter dem angegebenen Bucket- und Ordnerpfad. | <Ihr Dateiname> | Nein | fileName |
| Kopierverhalten | Definiert das Kopierverhalten, wenn es sich bei der Quelle um Dateien aus einem dateibasierten Datenspeicher handelt. | • Flache Hierarchie • Dateien zusammenführen • Hierarchie beibehalten |
Nein | Kopierverhalten: • FlattenHierarchy • MergeFiles • HierarchieBewahren |
| Max. gleichzeitige Verbindungen | Die Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten. | <Maximal zulässige Anzahl paralleler Verbindungen> | Nein | maxConcurrentConnections |