Ładowanie danych przy użyciu zewnętrznej lokalizacji Unity Catalog

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

W tym artykule opisano, jak użyć funkcji interfejsu użytkownika dodawania danych, aby utworzyć tabelę zarządzaną na podstawie danych w usłudze Azure Data Lake Storage przy użyciu zewnętrznej lokalizacji katalogu Unity. Lokalizacja zewnętrzna to obiekt, który łączy ścieżkę magazynu w chmurze z poświadczeniami magazynu, które autoryzuje dostęp do ścieżki magazynu w chmurze.

Zanim rozpoczniesz

Przed rozpoczęciem musisz mieć następujące elementy:

Obszar roboczy z włączonym Unity Catalog. Aby uzyskać więcej informacji, zobacz Wprowadzenie do Unity Catalog.
Uprawnienie READ FILES w lokalizacji zewnętrznej. Aby uzyskać więcej informacji, zobacz Udzielanie uprawnień w lokalizacji zewnętrznej
CREATE TABLE Uprawnienie do schematu, w którym chcesz utworzyć tabelę zarządzaną, USE SCHEMA uprawnienia w schemacie i USE CATALOG uprawnienie w katalogu nadrzędnym. Aby uzyskać więcej informacji, zobacz uprawnienia Unity Catalog i obiekty, które można zabezpieczyć.

Typy plików

Następujące typy plików są obsługiwane:

CSV
TSV
JSON
XML
AVRO
Parquet

Krok 1. Potwierdzenie dostępu do lokalizacji zewnętrznej

Aby potwierdzić dostęp do lokalizacji zewnętrznej, wykonaj następujące czynności:

Na pasku bocznym obszaru roboczego usługi Azure Databricks kliknij pozycję Wykaz.
W Eksploratorze wykazu kliknij Zewnętrzne dane>Zewnętrzne lokalizacje.

Krok 2. Tworzenie tabeli zarządzanej

Aby utworzyć tabelę zarządzaną, wykonaj następujące czynności:

Na pasku bocznym obszaru roboczego kliknij pozycję + Nowe>dodaj dane.
W interfejsie użytkownika dodawania danych kliknij pozycję Azure Data Lake Storage.
Wybierz lokalizację zewnętrzną z listy rozwijanej.
Wybierz foldery i pliki, które chcesz załadować do usługi Azure Databricks, a następnie kliknij pozycję Tabela w wersji zapoznawczej.
Wybierz wykaz i schemat z list rozwijanych.
(Opcjonalnie) Edytuj nazwę tabeli.
(Opcjonalnie) Aby ustawić zaawansowane opcje formatowania według typu pliku, kliknij pozycję Atrybuty zaawansowane, wyłącz opcję Automatycznie wykrywaj typ pliku, a następnie wybierz typ pliku.

Aby uzyskać listę opcji formatowania, zobacz następującą sekcję.
(Opcjonalnie) Aby edytować nazwę kolumny, kliknij pole wejściowe w górnej części kolumny.

Nazwy kolumn nie obsługują przecinków, ukośników odwrotnych ani znaków Unicode (takich jak emoji).
(Opcjonalnie) Aby edytować typy kolumn, kliknij ikonę z typem .
Kliknij pozycję Utwórz tabelę.

Opcje formatu typu pliku

Dostępne są następujące opcje formatowania w zależności od typu pliku:

Opcja formatowania	opis	Typy obsługiwanych plików
`Column delimiter`	Znak separatora między kolumnami. Dozwolony jest wyłącznie jeden znak, a ukośnik odwrotny (backslash) nie jest obsługiwany. Wartość domyślna to przecinek.	CSV
`Escape character`	Znak ucieczki do użycia podczas analizowania danych. Wartość domyślna to cudzysłów.	CSV
`First row contains the header`	Ta opcja określa, czy plik zawiera nagłówek. Włączone domyślnie.	CSV
`Automatically detect file type`	Automatycznie wykrywaj typ pliku. Wartość domyślna to `true`.	XML
`Automatically detect column types`	Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako CIĄG. Włączone domyślnie.	CSV JSON XML
`Rows span multiple lines`	Czy wartość kolumny może obejmować wiele wierszy w pliku. Wyłączone domyślnie.	CSV JSON
`Merge the schema across multiple files`	Czy wywnioskować schemat w wielu plikach i połączyć schemat każdego pliku. Włączone domyślnie.	CSV
`Allow comments`	Czy komentarze są dozwolone w pliku. Włączone domyślnie.	JSON
`Allow single quotes`	Czy w pliku dozwolone są pojedyncze cudzysłowy? Włączone domyślnie.	JSON
`Infer timestamp`	Czy spróbować wywnioskować ciągi znacznika czasu jako `TimestampType`. Włączone domyślnie.	JSON
`Rescued data column`	Czy zapisać kolumny, które nie są zgodne ze schematem. Aby uzyskać więcej informacji, zobacz Co to jest uratowana kolumna danych?. Włączone domyślnie.	CSV JSON Avro Parquet
`Exclude attribute`	Czy wykluczać atrybuty w elementach. Wartość domyślna to `false`.	XML
`Attribute prefix`	Prefiks atrybutów do rozróżniania atrybutów i elementów. Wartość domyślna to `_`.	XML

Typy danych kolumn

Obsługiwane są następujące typy danych kolumn. Aby uzyskać więcej informacji na temat poszczególnych typów danych, zobacz Typy danych SQL.

Typ danych	opis
`BIGINT`	8-bajtowe liczby całkowite ze znakiem.
`BOOLEAN`	Wartości logiczne (`true`, `false`).
`DATE`	i dzień, bez strefy czasowej.
`DECIMAL (P,S)`	Liczby o maksymalnej precyzji `P` i stałej skali `S`.
`DOUBLE`	8-bajtowe liczby zmiennoprzecinkowe o podwójnej precyzji.
`STRING`	Wartości ciągów znaków.
`TIMESTAMP`	Wartości składające się z wartości pól rok, miesiąc, dzień, godzina, minuta i sekunda z lokalną strefą czasową sesji.

Znane problemy

Mogą wystąpić problemy z znakami specjalnymi w złożonych typach danych, takich jak obiekt JSON z kluczem zawierającym znak akcentu odwrotnego (backtick) lub dwukropek.
Niektóre pliki JSON mogą wymagać ręcznego wybrania formatu JSON dla typu pliku. Aby ręcznie wybrać typ pliku po wybraniu plików, kliknij pozycję Atrybuty zaawansowane, wyłącz opcję Automatycznie wykrywaj typ pliku, a następnie wybierz pozycję JSON.
Zagnieżdżone znaczniki czasu i liczby dziesiętne wewnątrz typów złożonych mogą powodować problemy.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-08-30