Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule opisano sposób używania działania kopiowania w potoku do kopiowania danych z i do usługi Google Cloud Storage.
Wymagania wstępne
Na koncie usługi Google Cloud Storage wymagana jest następująca konfiguracja:
Włącz interoperacyjność konta usługi Google Cloud Storage.
Ustaw domyślny projekt zawierający dane, które chcesz skopiować z docelowego zasobnika Usługi Google Cloud Storage.
Utwórz konto usługi i zdefiniuj odpowiednie poziomy uprawnień przy użyciu usługi Cloud IAM w usłudze GCP.
Wygeneruj klucze dostępu dla tego konta usługi.
Wymagane uprawnienia
Aby skopiować dane z usługi Google Cloud Storage, upewnij się, że udzielono następujących uprawnień do operacji obiektów: storage.objects.get i storage.objects.list.
Ponadto uprawnienia są wymagane w przypadku operacji, storage.buckets.list takich jak testowanie połączenia i przeglądanie z poziomu katalogu głównego.
Aby uzyskać pełną listę ról usługi Google Cloud Storage i skojarzonych uprawnień, przejdź do pozycji Role zarządzania dostępem i tożsamościami dla usługi Cloud Storage w witrynie Google Cloud.
Obsługiwany format
Usługa Google Cloud Storage obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.
- Format Avro
- Format binarny
- Format tekstu rozdzielanego
- Format programu Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Obsługiwana konfiguracja
W przypadku konfiguracji każdej zakładki podczas czynności kopiowania przejdź odpowiednio do poniższych sekcji.
General
W obszarze Konfiguracja karty Ogólne przejdź do pozycji Ogólne.
Źródło
Następujące właściwości są obsługiwane w usłudze Google Cloud Storage na karcie Źródło działania kopiowania.
Wymagane są następujące właściwości:
Połączenie: wybierz połączenie z usługą Google Cloud Storage z listy połączeń. Jeśli połączenie nie istnieje, utwórz nowe połączenie usługi Google Cloud Storage, wybierając pozycję Nowy.
Typ ścieżki pliku: możesz wybrać ścieżkę pliku, prefiks, ścieżkę pliku z symbolem wieloznacznymi lub listę plików jako typ ścieżki pliku. Konfiguracja każdego z tych ustawień to:
Ścieżka pliku: w przypadku wybrania tego typu dane można skopiować z danego zasobnika lub ścieżki folderu/pliku określonej w ścieżce pliku.
Prefiks: w przypadku wybrania tego typu określ zasobnik i prefiks.
Zasobnik: określ nazwę zasobnika usługi Google Cloud Storage. Jest to wymagane.
Prefiks: Prefiks nazwy klucza Google Cloud Storage w ramach określonego bucketu do filtrowania źródłowych plików usługi Google Cloud Storage. Wybrano klucze usługi Google Cloud Storage, których nazwy zaczynają się od
given_bucket/this_prefix. Korzysta z filtru po stronie usługi Google Cloud Storage, który zapewnia lepszą wydajność niż filtr wieloznaczny.
Ścieżka pliku z symbolami wieloznacznymi: Jeśli wybierzesz ten typ, określ Bucket i ścieżki z symbolami wieloznacznymi.
Zasobnik: określ nazwę zasobnika usługi Google Cloud Storage. Jest to wymagane.
Ścieżki z symbolami wieloznacznymi: określ folder lub ścieżkę pliku z symbolami wieloznacznymi w danym zasobniku, aby filtrować foldery źródłowe lub pliki.
Dozwolone wildcardy to:
*(pasuje do zera lub większej liczby znaków) i?(pasuje do zera lub pojedynczego znaku). Użyj^, aby zastosować znak ucieczki, jeśli nazwa folderu zawiera symbol wieloznaczny lub ten znak. Aby uzyskać więcej przykładów, zobacz Przykłady filtrów folderów i plików.
Ścieżka folderu z symbolami wieloznacznymi: określ ścieżkę folderu z symbolami wieloznacznymi w danym zasobniku, aby filtrować foldery źródłowe.
Nazwa pliku z symbolami wieloznacznymi: określ nazwę pliku z symbolami wieloznacznymi w ramach danego zasobnika i ścieżki folderu (lub ścieżki folderu z symbolami wieloznacznymi), aby filtrować pliki źródłowe.
Lista plików: jeśli wybierzesz ten typ, określ ścieżkę folderu i ścieżkę do pliku, aby wskazać, aby skopiować dany zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, który jest ścieżką względną do skonfigurowanej ścieżki. Aby uzyskać więcej przykładów, przejdź do pozycji Przykłady listy plików.
- Ścieżka folderu: określ ścieżkę do folderu w danym zasobniku. Jest to wymagane.
- Ścieżka do listy plików: określ ścieżkę pliku tekstowego zawierającego listę plików, które chcesz skopiować.
Rekursywnie: wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Pamiętaj, że po zaznaczeniu tego pola wyboru, jeśli miejscem docelowym jest magazyn oparty na plikach, pusty folder lub podfolder nie jest kopiowany ani tworzony w miejscu docelowym.
Format pliku: wybierz format pliku zastosowany z listy rozwijanej. Wybierz pozycję Ustawienia , aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje o ustawieniach różnych formatów plików, zobacz artykuły w obsługiwanych formatach.
W obszarze Zaawansowane można określić następujące pola:
Filtruj według ostatniej modyfikacji: pliki są filtrowane w oparciu o określone daty ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
- Godzina rozpoczęcia (UTC): pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy skonfigurowanemu czasowi.
- Godzina zakończenia (UTC): Pliki są wybierane, jeśli czas ostatniej modyfikacji jest krótszy niż skonfigurowany czas.
Gdy godzina rozpoczęcia (UTC) ma wartość daty/godziny, ale godzina zakończenia (UTC) ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest większy niż lub równy wartości daty/godziny, zostaną wybrane. Jeśli godzina zakończenia (UTC) ma wartość daty/godziny, ale godzina rozpoczęcia (UTC) ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest mniejszy niż wartość daty/godziny, zostanie wybrana. Właściwości mogą mieć wartość NULL, co oznacza, że do danych nie zostanie zastosowany filtr atrybutu pliku.
Włącz odnajdywanie partycji: określ, czy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. Jest on domyślnie niezaznaczony i nie jest obsługiwany w przypadku korzystania z formatu pliku binarnego.
Ścieżka główna partycji: po włączeniu odnajdywania partycji określ bezwzględną ścieżkę główną, aby odczytywać podzielone na partycje foldery jako kolumny danych.
Jeśli nie zostanie określony, domyślnie,
- Jeśli używasz ścieżki pliku lub listy plików w źródle, ścieżka główna partycji jest ścieżką skonfigurowaną.
- W przypadku używania filtru z symbolami wieloznacznymi dla folderów, ścieżka główna partycji obejmuje podścieżkę przed pierwszym symbolem wieloznacznym.
- W przypadku używania prefiksu ścieżka główna partycji jest ścieżką podrzędną przed ostatnim ciągiem "/".
Na przykład przy założeniu, że ścieżka jest skonfigurowana jako
root/folder/year=2020/month=08/day=27:- Jeśli określisz ścieżkę główną partycji jako
root/folder/year=2020, działanie kopiowania wygeneruje dwa kolejne kolumny miesiąc i dzień z wartością "08" i "27" odpowiednio, oprócz kolumn wewnątrz plików. - Jeśli nie określono ścieżki głównej partycji, nie zostanie wygenerowana żadna dodatkowa kolumna.
Maksymalna liczba współbieżnych połączeń: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
dodatkowe kolumny: Dodaj dodatkowe kolumny danych, aby przechowywać ścieżkę względną plików źródłowych lub wartość statyczną. Wyrażenie jest obsługiwane dla tego ostatniego przypadku.
Destynacja
Następujące właściwości są obsługiwane w usłudze Google Cloud Storage na karcie Miejsce docelowe działania kopiowania.
Wymagane są następujące właściwości:
- Połączenie: wybierz połączenie z usługą Google Cloud Storage z listy połączeń. Jeśli połączenie nie istnieje, utwórz nowe połączenie usługi Google Cloud Storage, wybierając pozycję Nowy.
- Ścieżka pliku: dane można skopiować do danego zasobnika lub określonej ścieżki zasobnika i folderu.
- Format pliku: wybierz format pliku zastosowany z listy rozwijanej. Wybierz pozycję Ustawienia , aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje o ustawieniach różnych formatów plików, zobacz artykuły w obsługiwanych formatach.
W obszarze Zaawansowane można określić następujące pola:
Zachowanie kopiowania: definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. Możesz wybrać zachowanie z listy rozwijanej.
- Hierarchia spłaszczana: wszystkie pliki z folderu źródłowego znajdują się na pierwszym poziomie folderu docelowego. Pliki docelowe mają automatycznie wygenerowane nazwy.
- Połącz pliki: Łączy wszystkie pliki z folderu źródłowego w jeden plik. Jeśli określono nazwę pliku, scalona nazwa pliku jest określoną nazwą. W przeciwnym razie jest to automatycznie wygenerowana nazwa pliku.
- Zachowaj hierarchię: zachowuje hierarchię plików w folderze docelowym. Względna ścieżka pliku źródłowego do folderu źródłowego jest identyczna ze względną ścieżką pliku docelowego do folderu docelowego.
Maksymalna liczba połączeń współbieżnych: ta właściwość wskazuje górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
Mapowanie
Aby uzyskać informacje o konfiguracji karty Mapowanie , zobacz Konfigurowanie mapowań na karcie mapowania. Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie będzie obsługiwane.
Ustawienia
W obszarze Konfiguracja karty Ustawienia przejdź do sekcji Konfigurowanie innych ustawień na karcie ustawienia.
Podsumowanie tabeli
Poniższe tabele zawierają więcej informacji o działaniu kopiowania w usłudze Google Cloud Storage.
Informacje źródłowe
| Name | Description | Wartość | Wymagane | Właściwość skryptu JSON |
|---|---|---|---|---|
| Połączenie | Twoja łączność z źródłowym magazynem danych. | <Twoje połączenie z Google Cloud Storage> | Tak | połączenie |
| Typ ścieżki pliku | Typ ścieżki pliku używany do pobierania danych źródłowych. | • Ścieżka pliku • Prefiks • Ścieżka pliku z symbolami wieloznacznymi • Lista plików |
Tak | / |
| Dla Ścieżka pliku | ||||
| Bucket | Nazwa zasobnika usługi Google Cloud Storage. | <nazwa zasobnika> | Tak | bucketName |
| Katalog | Ścieżka do folderu w określonym kubełku. | <nazwa folderu> | Nie. | ścieżka folderu |
| Nazwa pliku | Nazwa pliku w określonym zasobniku i ścieżce folderu. | <nazwa pliku> | Nie. | fileName |
| Dla prefiksu | ||||
| Bucket | Nazwa zasobnika usługi Google Cloud Storage. | <nazwa zasobnika> | Tak | bucketName |
| prefiks | Prefiks nazwy klucza usługi Google Cloud Storage w ramach danego zasobnika do filtrowania źródłowych plików usługi Google Cloud Storage. | <prefiks> | Nie. | prefix |
| W przypadku ścieżki pliku z symbolami wieloznacznymi | ||||
| Bucket | Nazwa zasobnika usługi Google Cloud Storage. | <nazwa zasobnika> | Tak | bucketName |
| Ścieżka folderu z symbolami wieloznacznymi | Ścieżka folderu zawierająca symbole wieloznaczne w określonym bucket do filtrowania folderów źródłowych. | <ścieżka folderu z symbolami wieloznacznymi> | Nie. | wildcardFolderPath |
| Nazwa pliku zawierająca symbol wieloznaczny | Nazwa pliku z symbolami wieloznacznymi w ramach określonego zasobnika i ścieżki folderu (lub ścieżki folderu z symbolami wieloznacznymi) do filtrowania plików źródłowych. | <nazwa pliku z symbolami wieloznacznymi> | Tak | wildcardFileName |
| Lista plików | ||||
| Bucket | Nazwa zasobnika usługi Google Cloud Storage. | <nazwa zasobnika> | Tak | bucketName |
| Katalog | Ścieżka do folderu w określonym kubełku. | <nazwa folderu> | Nie. | ścieżka folderu |
| Ścieżka do listy plików | Wskazuje, aby skopiować dany zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz. | < ścieżka listy plików > | Nie. | fileListPath |
| Format pliku | Format pliku dla danych źródłowych. Aby uzyskać informacje o różnych formatach plików, zapoznaj się z artykułami w obsługiwanym formacie , aby uzyskać szczegółowe informacje. | / | Tak | / |
| Rekursywnie | Wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Pamiętaj, że po zaznaczeniu tego pola wyboru, jeśli miejscem docelowym jest magazyn oparty na plikach, pusty folder lub podfolder nie jest kopiowany ani tworzony w miejscu docelowym. | wybrane (domyślne) lub usuń zaznaczenie | Nie. | recursive |
| Filtruj według ostatniej modyfikacji | Pliki o ostatniej modyfikacji w zakresie [Godzina rozpoczęcia, Godzina zakończenia) będą filtrowane pod kątem dalszego przetwarzania. Czas zostanie ustawiony na strefę czasową UTC w formacie yyyy-mm-ddThh:mm:ss.fffZ. Te właściwości można pominąć, co oznacza, że nie zostanie zastosowany filtr atrybutu pliku. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików. |
data/godzina | Nie. | modifiedDatetimeStart modifiedDatetimeEnd |
| Włączanie odnajdywania partycji | Wskazuje, czy należy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. | wybrane lub niezaznaczone (ustawienie domyślne) | Nie. | enablePartitionDiscovery: true lub false (wartość domyślna) |
| Ścieżka główna partycji | Po włączeniu odnajdywania partycji określ bezwzględną ścieżkę katalogu głównego, aby odczytywać foldery podzielone na partycje jako kolumny danych. | < ścieżka główna partycji > | Nie. | partitionRootPath |
| Maksymalna liczba współbieżnych połączeń | Górny limit nawiązywanych jednocześnie połączeń z magazynem danych podczas wykonywania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. | <maksymalna liczba współbieżnych połączeń> | Nie. | maxConcurrentConnections |
| Dodatkowe kolumny | Dodaj dodatkowe kolumny danych, aby przechowywać ścieżkę względną plików źródłowych lub wartość statyczną. Wyrażenie jest obsługiwane dla tego ostatniego przypadku. | •Nazwa •Wartość |
Nie. | dodatkoweKolumny: •nazwa •wartość |
Informacje o lokalizacji docelowej
| Name | Description | Wartość | Wymagane | Właściwość skryptu JSON |
|---|---|---|---|---|
| Połączenie | Twoje połączenie z docelowym magazynem danych. | <Twoje połączenie z Google Cloud Storage> | Tak | połączenie |
| Ścieżka pliku | Ścieżka folderu/pliku do pliku docelowego. | < folder/ścieżka pliku> | Tak | / |
| Bucket | Nazwa zasobnika usługi Google Cloud Storage. | <nazwa zasobnika> | Tak | bucketName |
| Katalog | Ścieżka do folderu w określonym kubełku. | <nazwa folderu> | Nie. | ścieżka folderu |
| Nazwa pliku | Nazwa pliku w określonym zasobniku i ścieżce folderu. | <nazwa pliku> | Nie. | fileName |
| Zachowanie kopiowania | Definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. | • Spłaszczyć hierarchię • Scalanie plików • Zachowaj hierarchię |
Nie. | copyBehavior: • FlattenHierarchy • MergeFiles • ZachowajHierarchię |
| maksymalna liczba współbieżnych połączeń | Górny limit nawiązywanych jednocześnie połączeń z magazynem danych podczas wykonywania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. | <maksymalna liczba współbieżnych połączeń> | Nie. | maxConcurrentConnections |