Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Importante
Esta funcionalidade está em Pré-visualização Pública.
Este artigo descreve como usar a interface de utilizador para adicionar dados para criar uma tabela gerida a partir de dados no Armazenamento do Azure Data Lake utilizando um local externo do Catálogo Unity. Um local externo é um objeto que combina um caminho de armazenamento em nuvem com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento em nuvem.
Antes de começar
Antes de começar, você deve ter o seguinte:
- Um espaço de trabalho com o Unity Catalog ativado. Para obter mais informações, consulte Introdução ao catálogo Unity.
- O
READ FILESprivilégio no local externo. Para obter mais informações, consulte Conceder permissões em um local externo - O privilégio
CREATE TABLEno esquema no qual você deseja criar a tabela gerenciada, o privilégioUSE SCHEMAno esquema e o privilégioUSE CATALOGno catálogo pai. Para obter mais informações, consulte privilégios do Catálogo Unity e objetos protegíveis.
Tipos de ficheiros
Os seguintes tipos de ficheiro são suportados:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
Etapa 1: Confirmar o acesso ao local externo
Para confirmar o acesso ao local externo, faça o seguinte:
- Na barra lateral do seu espaço de trabalho do Azure Databricks, clique em Catálogo.
- No Catalog Explorer, clique em Dados Externos>Locais Externos.
Etapa 2: Criar a tabela gerenciada
Para criar a tabela gerenciada, faça o seguinte:
Na barra lateral do espaço de trabalho, clique em + Novo>Adicionar dados.
Na interface de utilizador para adicionar dados, clique em Azure Data Lake Storage.
Selecione um local externo na lista suspensa.
Selecione as pastas e os ficheiros que pretende carregar no Azure Databricks e, em seguida, clique em Pré-visualizar tabela.
Selecione um catálogo e um esquema nas listas de seleção.
(Opcional) Edite o nome da tabela.
(Opcional) Para definir opções de formato avançado por tipo de ficheiro, clique em Atributos avançados, desative Detetar automaticamente o tipo de ficheiroe, em seguida, selecione um tipo de ficheiro.
Para obter uma lista de opções de formato, consulte a seção a seguir.
(Opcional) Para editar o nome da coluna, clique na caixa de entrada na parte superior da coluna.
Os nomes das colunas não suportam vírgulas, barras invertidas ou caracteres unicode (como emojis).
(Opcional) Para editar tipos de coluna, clique no ícone com o tipo.
Clique Criar a tabela.
Opções de formato de tipo de ficheiro
As seguintes opções de formato estão disponíveis, dependendo do tipo de arquivo:
| Opção de Formato | Descrição | Tipos de ficheiro suportados |
|---|---|---|
Column delimiter |
O caractere separador entre colunas. Apenas um único caractere é permitido, e a barra invertida não é suportada. O padrão é uma vírgula. |
CSV |
Escape character |
O caractere de escape a ser usado ao analisar os dados. O padrão é uma aspa. |
CSV |
First row contains the header |
Esta opção especifica se o arquivo contém um cabeçalho. Ativado por predefinição. |
CSV |
Automatically detect file type |
Detete automaticamente o tipo de arquivo. A predefinição é true. |
XML |
Automatically detect column types |
Detete automaticamente os tipos de coluna do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como STRING. Ativado por predefinição. |
|
Rows span multiple lines |
Se o valor de uma coluna pode abranger várias linhas no arquivo. Desativado por predefinição. |
|
Merge the schema across multiple files |
Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Ativado por predefinição. |
CSV |
Allow comments |
Se os comentários são permitidos no arquivo. Ativado por predefinição. |
JSON |
Allow single quotes |
Se aspas simples são permitidas no arquivo. Ativado por predefinição. |
JSON |
Infer timestamp |
Se deve tentar inferir marcadores de data/hora como TimestampType.Ativado por predefinição. |
JSON |
Rescued data column |
Se as colunas que não correspondem ao esquema devem ser salvas. Para obter mais informações, consulte O que é a coluna de dados resgatados?. Ativado por predefinição. |
|
Exclude attribute |
Se os atributos devem ser excluídos em elementos. A predefinição é false. |
XML |
Attribute prefix |
O prefixo para atributos para diferenciar atributos e elementos. A predefinição é _. |
XML |
Tipos de dados de coluna
Os seguintes tipos de dados de coluna são suportados. Para obter mais informações sobre tipos de dados individuais, consulte Tipos de dados SQL.
| Tipo de Dados | Descrição |
|---|---|
BIGINT |
Números inteiros assinados de 8 bytes. |
BOOLEAN |
Valores booleanos (true, false). |
DATE |
e dia, sem fuso horário. |
DECIMAL (P,S) |
Números com a máxima precisão P e escala Sfixa. |
DOUBLE |
Números de ponto flutuante de precisão dupla de 8 bytes. |
STRING |
Valores de cadeia de caracteres. |
TIMESTAMP |
Valores que compreendem valores de campos ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão. |
Problemas conhecidos
- Você pode ter problemas com caracteres especiais em tipos de dados complexos, como um objeto JSON com uma chave que contenha uma aspa invertida ou dois pontos.
- Alguns arquivos JSON podem exigir que você selecione manualmente JSON para o tipo de arquivo. Para selecionar manualmente um tipo de arquivo após selecionar os ficheiros, clique em Atributos avançados, desative a opção Detetar automaticamente o tipo de arquivoe, em seguida, escolha JSON.
- Carimbos de data/hora aninhados e decimais dentro de tipos complexos podem encontrar problemas.