Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
W tym artykule opisano, jak użyć funkcji interfejsu użytkownika dodawania danych, aby utworzyć tabelę zarządzaną na podstawie danych w usłudze Azure Data Lake Storage przy użyciu zewnętrznej lokalizacji katalogu Unity. Lokalizacja zewnętrzna to obiekt, który łączy ścieżkę magazynu w chmurze z poświadczeniami magazynu, które autoryzuje dostęp do ścieżki magazynu w chmurze.
Zanim rozpoczniesz
Przed rozpoczęciem musisz mieć następujące elementy:
- Obszar roboczy z włączonym Unity Catalog. Aby uzyskać więcej informacji, zobacz Wprowadzenie do Unity Catalog.
- Uprawnienie
READ FILESw lokalizacji zewnętrznej. Aby uzyskać więcej informacji, zobacz Udzielanie uprawnień w lokalizacji zewnętrznej -
CREATE TABLEUprawnienie do schematu, w którym chcesz utworzyć tabelę zarządzaną,USE SCHEMAuprawnienia w schemacie iUSE CATALOGuprawnienie w katalogu nadrzędnym. Aby uzyskać więcej informacji, zobacz uprawnienia Unity Catalog i obiekty, które można zabezpieczyć.
Typy plików
Następujące typy plików są obsługiwane:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
Krok 1. Potwierdzenie dostępu do lokalizacji zewnętrznej
Aby potwierdzić dostęp do lokalizacji zewnętrznej, wykonaj następujące czynności:
- Na pasku bocznym obszaru roboczego usługi Azure Databricks kliknij pozycję Wykaz.
- W Eksploratorze wykazu kliknij Zewnętrzne dane>Zewnętrzne lokalizacje.
Krok 2. Tworzenie tabeli zarządzanej
Aby utworzyć tabelę zarządzaną, wykonaj następujące czynności:
Na pasku bocznym obszaru roboczego kliknij pozycję + Nowe>dodaj dane.
W interfejsie użytkownika dodawania danych kliknij pozycję Azure Data Lake Storage.
Wybierz lokalizację zewnętrzną z listy rozwijanej.
Wybierz foldery i pliki, które chcesz załadować do usługi Azure Databricks, a następnie kliknij pozycję Tabela w wersji zapoznawczej.
Wybierz wykaz i schemat z list rozwijanych.
(Opcjonalnie) Edytuj nazwę tabeli.
(Opcjonalnie) Aby ustawić zaawansowane opcje formatowania według typu pliku, kliknij pozycję Atrybuty zaawansowane, wyłącz opcję Automatycznie wykrywaj typ pliku, a następnie wybierz typ pliku.
Aby uzyskać listę opcji formatowania, zobacz następującą sekcję.
(Opcjonalnie) Aby edytować nazwę kolumny, kliknij pole wejściowe w górnej części kolumny.
Nazwy kolumn nie obsługują przecinków, ukośników odwrotnych ani znaków Unicode (takich jak emoji).
(Opcjonalnie) Aby edytować typy kolumn, kliknij ikonę z typem .
Kliknij pozycję Utwórz tabelę.
Opcje formatu typu pliku
Dostępne są następujące opcje formatowania w zależności od typu pliku:
| Opcja formatowania | opis | Typy obsługiwanych plików |
|---|---|---|
Column delimiter |
Znak separatora między kolumnami. Dozwolony jest wyłącznie jeden znak, a ukośnik odwrotny (backslash) nie jest obsługiwany. Wartość domyślna to przecinek. |
CSV |
Escape character |
Znak ucieczki do użycia podczas analizowania danych. Wartość domyślna to cudzysłów. |
CSV |
First row contains the header |
Ta opcja określa, czy plik zawiera nagłówek. Włączone domyślnie. |
CSV |
Automatically detect file type |
Automatycznie wykrywaj typ pliku. Wartość domyślna to true. |
XML |
Automatically detect column types |
Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako CIĄG. Włączone domyślnie. |
|
Rows span multiple lines |
Czy wartość kolumny może obejmować wiele wierszy w pliku. Wyłączone domyślnie. |
|
Merge the schema across multiple files |
Czy wywnioskować schemat w wielu plikach i połączyć schemat każdego pliku. Włączone domyślnie. |
CSV |
Allow comments |
Czy komentarze są dozwolone w pliku. Włączone domyślnie. |
JSON |
Allow single quotes |
Czy w pliku dozwolone są pojedyncze cudzysłowy? Włączone domyślnie. |
JSON |
Infer timestamp |
Czy spróbować wywnioskować ciągi znacznika czasu jako TimestampType.Włączone domyślnie. |
JSON |
Rescued data column |
Czy zapisać kolumny, które nie są zgodne ze schematem. Aby uzyskać więcej informacji, zobacz Co to jest uratowana kolumna danych?. Włączone domyślnie. |
|
Exclude attribute |
Czy wykluczać atrybuty w elementach. Wartość domyślna to false. |
XML |
Attribute prefix |
Prefiks atrybutów do rozróżniania atrybutów i elementów. Wartość domyślna to _. |
XML |
Typy danych kolumn
Obsługiwane są następujące typy danych kolumn. Aby uzyskać więcej informacji na temat poszczególnych typów danych, zobacz Typy danych SQL.
| Typ danych | opis |
|---|---|
BIGINT |
8-bajtowe liczby całkowite ze znakiem. |
BOOLEAN |
Wartości logiczne (true, false). |
DATE |
i dzień, bez strefy czasowej. |
DECIMAL (P,S) |
Liczby o maksymalnej precyzji P i stałej skali S. |
DOUBLE |
8-bajtowe liczby zmiennoprzecinkowe o podwójnej precyzji. |
STRING |
Wartości ciągów znaków. |
TIMESTAMP |
Wartości składające się z wartości pól rok, miesiąc, dzień, godzina, minuta i sekunda z lokalną strefą czasową sesji. |
Znane problemy
- Mogą wystąpić problemy z znakami specjalnymi w złożonych typach danych, takich jak obiekt JSON z kluczem zawierającym znak akcentu odwrotnego (backtick) lub dwukropek.
- Niektóre pliki JSON mogą wymagać ręcznego wybrania formatu JSON dla typu pliku. Aby ręcznie wybrać typ pliku po wybraniu plików, kliknij pozycję Atrybuty zaawansowane, wyłącz opcję Automatycznie wykrywaj typ pliku, a następnie wybierz pozycję JSON.
- Zagnieżdżone znaczniki czasu i liczby dziesiętne wewnątrz typów złożonych mogą powodować problemy.