Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Esse recurso está em uma versão prévia.
Este artigo descreve como usar a interface de adição de dados para criar uma tabela gerenciada a partir de dados no Azure Data Lake Storage, utilizando uma localização externa do Unity Catalog. Um local externo é um objeto que combina um caminho de armazenamento em nuvem com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento em nuvem.
Antes de começar
Antes de começar, você deverá ter o seguinte:
- Um workspace com o Unity Catalog habilitado. Para obter mais informações, consulte Introdução ao Catálogo do Unity.
- O privilégio
READ FILESno local externo. Para obter mais informações, consulte Conceder permissões em um local externo - O privilégio
CREATE TABLEno esquema no qual você deseja criar a tabela gerenciada, o privilégioUSE SCHEMAno esquema e o privilégioUSE CATALOGno catálogo pai. Para obter mais informações, confira Privilégios e objetos protegíveis do Catálogo do Unity.
Tipos de arquivo
Há suporte para os seguintes tipos de arquivo:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
Etapa 1: Confirmar o acesso ao local externo
Para confirmar o acesso ao local externo, faça o seguinte:
- Na barra lateral do seu workspace do Azure Databricks, clique em Catálogo.
- No Catalog Explorer, clique em Dados Externos>Locais Externos.
Etapa 2: Criar a tabela gerenciada
Para criar a tabela gerenciada, faça o seguinte:
Na barra lateral do seu workspace, clique em + Novo>Adicionar dados.
Na interface do usuário de adição de dados, clique em Azure Data Lake Storage.
Selecione um local externo na lista suspensa.
Selecione as pastas e os arquivos que você deseja carregar no Azure Databricks e clique em Visualizar tabela.
Selecione um catálogo e um esquema nas listas suspensas.
(Opcional) Edite o nome da tabela.
(Opcional) Para definir opções de formato avançadas por tipo de arquivo, clique em Atributos avançados, desative Detectar automaticamente o tipo de arquivo e selecione um tipo de arquivo.
Para obter uma lista de opções de formato, consulte a seção a seguir.
(Opcional) Para editar o nome da coluna, clique na caixa de entrada na parte superior dela.
Nomes de colunas não dão suporte a vírgulas, barras invertidas ou caracteres unicode (como emojis).
(Opcional) Para editar tipos de coluna, clique no ícone com o tipo.
Clique em Criar tabela.
Opções de formato de tipo de arquivo
As seguintes opções de formato estão disponíveis, dependendo do tipo de arquivo:
| Opção de formato | Descrição | Tipos de arquivo com suporte |
|---|---|---|
Column delimiter |
O caractere separador entre colunas. Apenas um caractere é permitido e não há suporte para barra invertida. O padrão é uma vírgula. |
CSV |
Escape character |
O caractere de escape a ser usado ao analisar os dados. O padrão é uma aspa. |
CSV |
First row contains the header |
Essa opção especifica se o arquivo contém um cabeçalho. Habilitada por padrão. |
CSV |
Automatically detect file type |
Detecta automaticamente o tipo de arquivo. O padrão é true. |
XML |
Automatically detect column types |
Detectar automaticamente tipos de coluna a partir do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se for definido como falso, todos os tipos de coluna serão inferidos como STRING. Habilitada por padrão. |
|
Rows span multiple lines |
Se o valor de uma coluna pode abranger várias linhas no arquivo. Desabilitado por padrão. |
|
Merge the schema across multiple files |
Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Habilitada por padrão. |
CSV |
Allow comments |
Se os comentários são permitidos no arquivo. Habilitada por padrão. |
JSON |
Allow single quotes |
Se aspas simples são permitidas no arquivo. Habilitada por padrão. |
JSON |
Infer timestamp |
Se deseja tentar inferir as cadeias de caracteres de carimbo de data/hora como TimestampType.Habilitada por padrão. |
JSON |
Rescued data column |
Se as colunas que não correspondem ao esquema devem ser salvas. Para obter mais informações, consulte O que é a coluna de dados resgatados. Habilitada por padrão. |
|
Exclude attribute |
Se deve excluir os atributos em elementos. O padrão é false. |
XML |
Attribute prefix |
O prefixo dos atributos para diferenciar atributos e elementos. O padrão é _. |
XML |
Tipos de dados de coluna
Há suporte para os seguintes tipos de dados de coluna. Para obter mais informações sobre tipos de dados individuais, consulte tipos de dados SQL.
| Tipo de Dados | Descrição |
|---|---|
BIGINT |
Números inteiros com sinal de 8 bytes. |
BOOLEAN |
Valores boolianos (true, false). |
DATE |
e dia, sem um fuso horário. |
DECIMAL (P,S) |
Número com precisão máxima P e escala fixa S. |
DOUBLE |
Números de ponto flutuante de precisão dupla de 8 bytes. |
STRING |
Valores de cadeia de caracteres. |
TIMESTAMP |
Valores que incluem valores de campos de ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão. |
Problemas conhecidos
- Você pode enfrentar problemas com caracteres especiais em tipos de dados complexos, como um objeto JSON com uma chave que contém um acento grave ou dois-pontos.
- Alguns arquivos JSON podem exigir que você selecione manualmente JSON para o tipo de arquivo. Para selecionar um tipo de arquivo depois de selecionar arquivos, clique em Atributos avançados, desative Detectar automaticamente o tipo de arquivo e selecione JSON.
- Carimbos de data/hora aninhados e decimais dentro de tipos complexos podem encontrar problemas.