Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O Azure Data Explorer é um serviço de análise de dados rápido e totalmente gerenciado. Ele oferece análise em tempo real sobre grandes volumes de dados que são transmitidos de muitas fontes, como aplicativos, sites e dispositivos IoT.
Para copiar dados de um banco de dados no Oracle Server, Netezza, Teradata ou SQL Server para o Azure Data Explorer, você precisa carregar grandes quantidades de dados de várias tabelas. Normalmente, os dados têm de ser particionados em cada tabela para que possa carregar linhas com vários threads em paralelo a partir de uma única tabela. Este artigo descreve um modelo a ser usado nesses cenários.
Os modelos do Azure Data Factory são pipelines predefinidos do Data Factory. Esses modelos podem ajudá-lo a começar rapidamente com o Data Factory e reduzir o tempo de desenvolvimento em projetos de integração de dados.
Você cria o modelo Cópia em massa do Banco de Dados para o Azure Data Explorer usando as atividades Pesquisa e ForEach . Para uma cópia de dados mais rápida, você pode usar o modelo para criar muitos pipelines por banco de dados ou por tabela.
Importante
Certifique-se de usar a ferramenta apropriada para a quantidade de dados que você deseja copiar.
- Use o modelo Cópia em massa do banco de dados para o Azure Data Explorer para copiar grandes quantidades de dados de bancos de dados, como o SQL Server e o Google BigQuery, para o Azure Data Explorer.
- Use a ferramenta 'Copy Data' do Data Factory para copiar algumas tabelas com quantidades pequenas ou moderadas de dados para o Azure Data Explorer.
Pré-requisitos
- Uma assinatura do Azure. Crie uma conta do Azure gratuita.
- Um cluster e um banco de dados do Azure Data Explorer. Crie um cluster e um banco de dados.
- Uma fábrica de dados. Crie uma fábrica de dados.
- Uma fonte de dados.
Criar ControlTableDataset
ControlTableDataset indica quais dados serão copiados da origem para o destino no pipeline. O número de linhas indica o número total de pipelines necessários para copiar os dados. Você deve definir ControlTableDataset como parte do banco de dados de origem.
Um exemplo do formato de tabela de origem do SQL Server é mostrado no código a seguir:
CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);
Os elementos de código são descritos na tabela a seguir:
| Propriedade | Descrição | Exemplo |
|---|---|---|
| Identificador de Partição | A ordem de cópia | 1 |
| SourceQuery | A consulta que indica quais dados serão copiados durante o tempo de execução do pipeline | select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
|
| ADXTableName | O nome da tabela de destino | MyAdxTable |
Se seu ControlTableDataset estiver em um formato diferente, crie um ControlTableDataset comparável para seu formato.
Usar o modelo Cópia em Lote do Banco de Dados para o Azure Data Explorer
No painel Vamos começar , selecione Criar pipeline a partir do modelo para abrir o painel Galeria de modelos .
Selecione o modelo Cópia em massa do Banco de Dados para o Azure Data Explorer .
No painel Cópia em massa do banco de dados para o Azure Data Explorer , em Entradas de usuário, especifique seus conjuntos de dados fazendo o seguinte:
a) Na lista suspensa ControlTableDataset, selecione o serviço associado à tabela de controlo que indica quais dados são copiados da origem para o destino e onde serão colocados no destino.
b) Na lista suspensa SourceDataset, selecione o serviço ligado ao banco de dados de origem.
c. Na lista suspensa AzureDataExplorerTable , selecione a tabela do Azure Data Explorer. Se o conjunto de dados não existir, crie o serviço vinculado do Azure Data Explorer para adicionar o conjunto de dados.
d. Selecione Utilizar este modelo.
Selecione uma área na tela, fora das atividades, para acessar o pipeline de modelos. Selecione a guia Parâmetros para inserir os parâmetros da tabela, incluindo Nome (nome da tabela de controle) e Valor padrão (nomes de coluna).
Em Pesquisa, selecione GetPartitionList para exibir as configurações padrão. A consulta é criada automaticamente.
Selecione a atividade Comando, ForEachPartition, selecione a guia Configurações e faça o seguinte:
a) Na caixa Contagem de lotes , insira um número de 1 a 50. Esta seleção determina o número de pipelines que são executados em paralelo até que se atinja o número de linhas de ControlTableDataset.
b) Para garantir que os lotes de pipeline sejam executados em paralelo, não marque a caixa de seleção Sequencial.
Sugestão
A prática recomendada é executar muitos pipelines em paralelo para que os seus dados possam ser copiados mais rapidamente. Para aumentar a eficiência, particione os dados na tabela de origem e aloque uma partição por pipeline, de acordo com a data e a tabela.
Selecione Validar Tudo para validar o pipeline do Azure Data Factory e exiba o resultado no painel Saída de Validação de Pipeline .
Se necessário, selecione Depurar e, em seguida, selecione Adicionar gatilho para executar o pipeline.
Agora você pode usar o modelo para copiar com eficiência grandes quantidades de dados de seus bancos de dados e tabelas.
Conteúdo relacionado
- Saiba mais sobre o conector do Azure Data Explorer para o Azure Data Factory.
- Edite serviços vinculados, conjuntos de dados e pipelines na interface do usuário do Data Factory.
- Consultar dados na interface do usuário da Web do Azure Data Explorer.