Freigeben über


Konfigurieren von Google Cloud Storage in einer Kopieraktivität

In diesem Artikel wird beschrieben, wie Sie die Kopieraktivität in einer Pipeline verwenden, um Daten aus und in Google Cloud Storage zu kopieren.

Voraussetzungen

Das folgende Setup ist für Ihr Google Cloud Storage-Konto erforderlich:

  1. Aktivieren Sie die Interoperabilität für Ihr Google Cloud Storage-Konto.

  2. Legen Sie das Standardprojekt fest, das die Daten enthält, die Sie aus dem Google Cloud Storage-Ziel-Bucket kopieren möchten.

  3. Erstellen Sie ein Dienstkonto, und definieren Sie die richtigen Berechtigungsstufen mithilfe von Cloud IAM auf GCP.

  4. Generieren Sie die Zugangsschlüssel für dieses Dienstkonto.

    Screenshot des Zugriffsschlüssels für Google Cloud Storage.

Erforderliche Berechtigungen

Um Daten aus Google Cloud Storage zu kopieren, stellen Sie sicher, dass Ihnen die folgenden Berechtigungen für Objektvorgänge erteilt wurden: storage.objects.get und storage.objects.list.

Darüber hinaus storage.buckets.list ist die Berechtigung für Vorgänge wie das Testen der Verbindung und das Browsen vom Root-Verzeichnis erforderlich.

Die vollständige Liste der Google Cloud Storage-Rollen und zugehörigen Berechtigungen finden Sie in den IAM-Rollen für Cloud Storage auf der Google Cloud-Website.

Unterstütztes Format:

Google Cloud Storage unterstützt die folgenden Dateiformate. Informationen zu formatbasierten Einstellungen finden Sie in den jeweiligen Artikeln.

Unterstützte Konfiguration

Die Konfiguration der einzelnen Registerkarten unter der Copy-Aktivität finden Sie in den folgenden Abschnitten.

Allgemein

Wechseln Sie für die Konfiguration der Registerkarte "Allgemein " zu " Allgemein".

Quelle

Die folgenden Eigenschaften werden für Google Cloud Storage auf der Registerkarte " Quelle " einer Kopieraktivität unterstützt.

Die folgenden Eigenschaften sind erforderlich:

  • Verbindung: Wählen Sie eine Google Cloud Storage-Verbindung aus der Verbindungsliste aus. Wenn keine Verbindung vorhanden ist, erstellen Sie eine neue Google Cloud Storage-Verbindung, indem Sie "Neu" auswählen.

  • Dateipfadtyp: Sie können Dateipfad, Präfix, Wildcarddateipfad oder Dateiliste als Dateipfadtyp auswählen. Die Konfiguration jeder dieser Einstellungen lautet:

    • Dateipfad: Wenn Sie diesen Typ auswählen, können die Daten aus dem angegebenen Bucket- oder Ordner-/Dateipfad kopiert werden, der im Dateipfad angegeben ist.

    • Präfix: Wenn Sie diesen Typ auswählen, geben Sie den Bucket und das Präfix an.

      • Bucket: Geben Sie den Namen des Google Cloud Storage-Buckets an. Es ist erforderlich.

      • Präfix: Präfix für den Namen des Google Cloud Storage-Schlüssels unter dem angegebenen Bucket zum Filtern von Google Cloud Storage-Dateien. Google Cloud Storage-Schlüssel, deren Namen beginnen given_bucket/this_prefix , werden ausgewählt. Es verwendet den dienstseitigen Filter von Google Cloud Storage, der eine bessere Leistung als ein Wildcardfilter bietet.

        Screenshot, der zeigt, wie Der Präfixdateipfadtyp konfiguriert wird.

    • Wildcard-Dateipfad: Wenn Sie diesen Typ wählen, geben Sie den Bucket und die Wildcard-Pfade an.

      • Bucket: Geben Sie den Namen des Google Cloud Storage-Buckets an. Es ist erforderlich.

      • Wildcardpfade: Geben Sie den Ordner- oder Dateipfad mit Wildcardzeichen innerhalb des angegebenen Buckets an, um die Quellordner oder -dateien zu filtern.

        Zulässige Wildcards sind: * (entspricht null oder mehr Zeichen) und ? (entspricht null oder einzelnem Zeichen). Verwenden Sie ^, um zu escapen, wenn der Ordnername einen Platzhalter oder das Escape-Zeichen enthält. Weitere Beispiele können Sie zu Ordner- und Dateifilterbeispielen aufrufen.

        Screenshot, der zeigt, wie Der Pfad der Wildcarddatei konfiguriert wird.

        • Pfad des Ordners "Wildcard": Geben Sie den Ordnerpfad mit Wildcardzeichen unter dem angegebenen Bucket an, um Quellordner zu filtern.

        • Name der Wildcarddatei: Geben Sie den Dateinamen mit Wildcardzeichen unter dem angegebenen Bucket- und Ordnerpfad (oder Pfad des Wildcardordners) an, um Quelldateien zu filtern.

    • Liste der Dateien: Wenn Sie diesen Typ auswählen, geben Sie den Ordnerpfad und den Pfad zur Dateiliste an, der angibt, dass ein bestimmter Dateisatz kopiert werden soll. Zeigen Sie auf eine Textdatei, die eine Liste von Dateien enthält, die Sie kopieren möchten, eine Datei pro Zeile, bei der es sich um den relativen Pfad zum konfigurierten Pfad handelt. Weitere Beispiele hierzu sind die Dateilistenbeispiele.

      Screenshot, der zeigt, wie Sie die Liste der Dateien konfigurieren.

      • Ordnerpfad: Geben Sie den Pfad zum Ordner unter dem angegebenen Bucket an. Es ist erforderlich.
      • Pfad zur Dateiliste: Geben Sie den Pfad der Textdatei an, die eine Liste von Dateien enthält, die Sie kopieren möchten.
  • Rekursiv: Gibt an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Beachten Sie, dass beim Aktivieren dieses Kontrollkästchens und das Ziel ein dateibasierter Speicher ist, kein leerer Ordner oder Unterordner am Ziel kopiert oder erstellt wird.

  • Dateiformat: Wählen Sie das in der Dropdownliste angewendete Dateiformat aus. Wählen Sie "Einstellungen" aus, um das Dateiformat zu konfigurieren. Informationen zu Einstellungen verschiedener Dateiformate finden Sie in Artikeln unter Supported format für ausführliche Informationen.

Unter "Erweitert" können Sie die folgenden Felder angeben:

  • Filtern nach letzter Änderung: Dateien werden basierend auf den von Ihnen angegebenen Datumsangaben der letzten Änderung gefiltert. Diese Eigenschaft gilt nicht, wenn Sie den Dateipfadtyp als Liste der Dateien konfigurieren.

    • Startzeit (UTC): Die Dateien werden ausgewählt, wenn die Uhrzeit der letzten Änderung größer oder gleich der konfigurierten Zeit ist.
    • Endzeit (UTC): Die Dateien werden ausgewählt, wenn die Zeit der letzten Änderung kleiner als die konfigurierte Zeit ist.

    Wenn "Startzeit" (UTC) den Wert "Datetime" aufweist, die Endzeit (UTC) jedoch NULL ist, bedeutet dies, dass die Dateien, deren letztes geändertes Attribut größer oder gleich dem Datetime-Wert ist, ausgewählt werden. Wenn die Endzeit (UTC) den Datums-/Uhrzeitwert aufweist, aber die Startzeit (UTC) NULL ist, bedeutet dies, dass die Dateien, deren zuletzt geändertes Attribut kleiner als der Datetime-Wert ist, ausgewählt werden. Die Eigenschaften können NULL sein, was bedeutet, dass keine Dateiattributefilter auf die Daten angewendet werden.

  • Partitionsermittlung aktivieren: Geben Sie an, ob die Partitionen aus dem Dateipfad analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen. Sie ist standardmäßig nicht ausgewählt und wird nicht unterstützt, wenn Sie das Binärdateiformat verwenden.

    • Partitionsstammpfad: Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammpfad an, um partitionierte Ordner als Datenspalten zu lesen.

      Wenn nichts anderes angegeben ist, erfolgt dies standardmäßig.

      • Wenn Sie den Dateipfad oder die Liste der Dateien auf der Quelle verwenden, ist der Partitionsstammpfad der von Ihnen konfigurierte Pfad.
      • Wenn Sie den Ordnerfilter mit einem Wildcard verwenden, ist der Partitionsstammpfad der Unterpfad vor dem ersten Wildcard.
      • Wenn Sie das Präfix verwenden, ist der Partitionsstammpfad vor dem letzten "/" Unterpfad.

      Angenommen, Sie konfigurieren den Pfad wie root/folder/year=2020/month=08/day=27:

      • Wenn Sie den Partitionsstammpfad als root/folder/year=2020angeben, generiert die Kopieraktivität zusätzlich zu den Spalten in den Dateien zwei weitere Spalten Monat und Tag mit dem Wert "08" bzw. "27".
      • Wenn kein Partitionsstammpfad angegeben ist, wird keine zusätzliche Spalte generiert.

      Screenshot, der

  • Maximale gleichzeitige Verbindung: Die obere Grenze der gleichzeitigen Verbindungen, die während der Aktivitätsausführung mit dem Datenspeicher hergestellt wurden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.

  • Zusätzliche Spalten: Fügen Sie zusätzliche Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. Für Letzteres wird ein Ausdruck unterstützt.

Bestimmungsort

Die folgenden Eigenschaften werden für Google Cloud Storage auf der Registerkarte "Ziel " einer Kopieraktivität unterstützt.

Screenshot der Registerkarte „Ziel“ mit der Liste der Eigenschaften

Die folgenden Eigenschaften sind erforderlich:

  • Verbindung: Wählen Sie eine Google Cloud Storage-Verbindung aus der Verbindungsliste aus. Wenn keine Verbindung vorhanden ist, erstellen Sie eine neue Google Cloud Storage-Verbindung, indem Sie "Neu" auswählen.
  • Dateipfad: Die Daten können in den angegebenen Bucket oder den angegebenen Bucket- und Ordnerpfad kopiert werden.
  • Dateiformat: Wählen Sie das in der Dropdownliste angewendete Dateiformat aus. Wählen Sie "Einstellungen" aus, um das Dateiformat zu konfigurieren. Informationen zu Einstellungen verschiedener Dateiformate finden Sie in Artikeln unter Supported format für ausführliche Informationen.

Unter "Erweitert" können Sie die folgenden Felder angeben:

  • Kopierverhalten: Definiert das Kopierverhalten, wenn die Quelle Dateien aus einem dateibasierten Datenspeicher ist. Sie können eine Verhaltensweise aus der Dropdownliste auswählen.

    • Flache Hierarchie: Alle Dateien aus dem Quellordner befinden sich auf der ersten Ebene des Zielordners. Die Zieldateien haben automatisch generierte Namen.
    • Zusammenführen von Dateien: Führt alle Dateien aus dem Quellordner mit einer Datei zusammen. Wenn der Dateiname angegeben wurde, entspricht der zusammengeführte Dateiname dem angegebenen Namen. Andernfalls handelt es sich um einen automatisch generierten Dateinamen.
    • Hierarchie beibehalten: Behält die Dateihierarchie im Zielordner bei. Der relative Pfad der Quelldatei zum Quellordner ist identisch mit dem relativen Pfad der Zieldatei zum Zielordner.
  • Max. gleichzeitige Verbindungen: Diese Eigenschaft gibt die obere Grenze der gleichzeitigen Verbindungen an, die während der Aktivitätsausführung mit dem Datenspeicher hergestellt wurden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.

Kartierung

Informationen zur Konfiguration der Registerkarte " Zuordnung " finden Sie unter "Konfigurieren Ihrer Zuordnungen" auf der Registerkarte "Zuordnung". Wenn Sie "Binary" als Dateiformat auswählen, wird die Zuordnung nicht unterstützt.

Einstellungen

Wechseln Sie für die Konfiguration der Registerkarte "Einstellungen" zu "Andere Einstellungen unter der Registerkarte konfigurieren".

Tabellenzusammenfassung

Die folgenden Tabellen enthalten weitere Informationen zur Kopieraktivität in Google Cloud Storage.

Quellinformationen

Name Description Wert Erforderlich JSON-Skripteigenschaft
Verbindung Ihre Verbindung zum Quelldatenspeicher. <Ihre Google Cloud Storage-Verbindung> Yes connection
Dateipfadtyp Der Dateipfadtyp, der zum Abrufen von Quelldaten verwendet wird. Dateipfad
Präfix
Pfad der Wildcarddatei
Liste der Dateien
Yes /
Für Dateipfad
Bucket Der Name des Google Cloud Storage-Buckets. <Ihr Bucket-Name> Yes bucketName
Verzeichnis Der Pfad zum Ordner unter dem angegebenen Bucket. <Ihr Ordnername> Nein folderpath
Dateiname Der Dateiname unter dem angegebenen Bucket- und Ordnerpfad. <Ihr Dateiname> Nein fileName
Für Präfix
Bucket Der Name des Google Cloud Storage-Buckets. <Ihr Bucket-Name> Yes bucketName
prefix Das Präfix für den Namen des Google Cloud Storage-Schlüssels unter dem angegebenen Bucket zum Filtern von Google Cloud Storage-Dateien. <Ihr Präfix> Nein prefix
Für Den Pfad der Wildcard-Datei
Bucket Der Name des Google Cloud Storage-Buckets. <Ihr Bucket-Name> Yes bucketName
Pfad des Ordners "Wildcard" Der Ordnerpfad mit Wildcardzeichen unter dem angegebenen Bucket zum Filtern von Quellordnern. <Ihr Ordnerpfad mit Wildcardzeichen> Nein wildcardFolderPath
Wildcard-Dateiname Der Dateiname mit Wildcardzeichen unter dem angegebenen Bucket- und Ordnerpfad (oder Pfad des Wildcardordners), um Quelldateien zu filtern. <Dateiname mit Wildcardzeichen> Yes wildcardFileName
Für die Liste der Dateien
Bucket Der Name des Google Cloud Storage-Buckets. <Ihr Bucket-Name> Yes bucketName
Verzeichnis Der Pfad zum Ordner unter dem angegebenen Bucket. <Ihr Ordnername> Nein folderpath
Pfad zur Dateiliste Gibt an, dass eine bestimmte Dateigruppe kopiert werden soll. Zeigen Sie auf eine Textdatei, die eine Liste von Dateien enthält, die Sie kopieren möchten, eine Datei pro Zeile. < Dateilistenpfad > Nein fileListPath
Dateiformat Das Dateiformat für die Quelldaten. Um Informationen zu verschiedenen Dateiformaten zu erhalten, lesen Sie die Artikel im Abschnitt Unterstützte Formate für ausführliche Details. / Yes /
Rekursiv Gibt an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Beachten Sie, dass beim Aktivieren dieses Kontrollkästchens und das Ziel ein dateibasierter Speicher ist, kein leerer Ordner oder Unterordner am Ziel kopiert oder erstellt wird. ausgewählt (Standard) oder Auswahl aufheben Nein recursive
Nach der letzten Änderung filtern Die Dateien mit der letzten Änderungszeit im Bereich [Startzeit, Endzeit) werden zur weiteren Verarbeitung gefiltert. Die Uhrzeit wird im Format der yyyy-mm-ddThh:mm:ss.fffZUTC-Zeitzone angewendet. Diese Eigenschaften können übersprungen werden, was bedeutet, dass kein Dateiattributefilter angewendet wird. Diese Eigenschaft gilt nicht, wenn Sie den Dateipfadtyp als Liste der Dateien konfigurieren. Datum/Uhrzeit Nein modifiedDatetimeStart
modifiedDatetimeEnd
Aktivieren der Partitionsermittlung Gibt an, ob die Partitionen aus dem Dateipfad analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen. Aktiviert oder deaktiviert (Standardwert) Nein enablePartitionDiscovery:
TRUE oder FALSE (Standardwert)
Partitionsstammpfad Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammpfad an, um partitionierte Ordner als Datenspalten zu lesen. < Ihr Partitionsstammpfad > Nein partitionRootPath
Max. gleichzeitige Verbindungen Die Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten. <Maximal zulässige Anzahl paralleler Verbindungen> Nein maxConcurrentConnections
Zusätzliche Spalten Fügen Sie zusätzliche Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. Für Letzteres wird ein Ausdruck unterstützt. • Name
•Wert
Nein zusätzlicheSpalten:
•Name
• Wert

Zielinformationen

Name Description Wert Erforderlich JSON-Skripteigenschaft
Verbindung Ihre Verbindung zum Zieldatenspeicher. <Ihre Google Cloud Storage-Verbindung> Yes connection
Dateipfad Der Ordner/Dateipfad zur Zieldatei. < Ordner-/Dateipfad> Yes /
Bucket Der Name des Google Cloud Storage-Buckets. <Ihr Bucket-Name> Yes bucketName
Verzeichnis Der Pfad zum Ordner unter dem angegebenen Bucket. <Ihr Ordnername> Nein folderpath
Dateiname Der Dateiname unter dem angegebenen Bucket- und Ordnerpfad. <Ihr Dateiname> Nein fileName
Kopierverhalten Definiert das Kopierverhalten, wenn es sich bei der Quelle um Dateien aus einem dateibasierten Datenspeicher handelt. • Flache Hierarchie
• Dateien zusammenführen
• Hierarchie beibehalten
Nein Kopierverhalten:
• FlattenHierarchy
• MergeFiles
• HierarchieBewahren
Max. gleichzeitige Verbindungen Die Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten. <Maximal zulässige Anzahl paralleler Verbindungen> Nein maxConcurrentConnections