Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo descreve várias opções que pode usar para transferir dados para e a partir do Azure, dependendo das suas necessidades.
Transferência física
Usar hardware físico para transferir dados para Azure é uma boa opção quando se aplicam os seguintes fatores:
- Sua rede é lenta ou não confiável.
- Obter mais largura de banda de rede é demasiado caro.
- As políticas de segurança ou organizacionais não permitem ligações de saída ao lidar com dados sensíveis.
Se a sua principal preocupação é quanto tempo demora a transferir os seus dados, considere testar para confirmar se a transferência de rede é mais lenta do que o transporte físico.
O serviço Azure Import/Export e o Azure Data Box são as duas principais opções para transportar fisicamente dados para Azure.
Serviço Importar/Exportar do Microsoft Azure
O serviço Azure Import/Export permite-lhe transferir de forma segura grandes quantidades de dados para Azure Blob Storage ou Azure Files, enviando discos rígidos internos Serial Advanced Technology Attachment (SATA) ou discos sólidos (SDDs) para um centro de dados Azure. Também pode usar este serviço para transferir dados do Azure Storage para HDDs e receber os discos para carregamento local.
Data Box
O Data Box é um dispositivo da Microsoft que funciona de forma semelhante ao serviço Azure Import/Export. Com o Data Box, a Microsoft envia-lhe um dispositivo de transferência proprietário, seguro e resistente a adulterações, e trata da logística de ponta a ponta, que pode acompanhar através do portal Azure. Uma das vantagens do serviço Data Box é a facilidade de utilização. Você não precisa comprar vários discos rígidos, prepará-los e transferir arquivos para cada um. Muitos parceiros Azure suportam o Data Box, o que facilita a utilização do transporte offline para a cloud dentro das suas soluções.
Ferramentas de linha de comando e APIs
Considere as seguintes opções quando precisar de transferência de dados através de scripts e programada:
O Azure CLI é uma ferramenta multiplataforma que permite gerir os serviços Azure e carregar dados para o Storage.
O AzCopy é uma ferramenta de linha de comandos que permite copiar dados para e a partir do Blob Storage, Azure Files storage e Azure Table Storage com desempenho ótimo. O AzCopy suporta simultaneidade e paralelismo, além da capacidade de retomar operações de cópia interrompidas. Também pode usar o AzCopy para copiar dados da Amazon Web Services (AWS) para o Azure. Para acesso programático, a biblioteca Microsoft Azure Storage Data Movement é a estrutura central que alimenta o AzCopy. Ele é fornecido como uma biblioteca .NET Core.
O Azure PowerShell é um ambiente de scripting onde o
Start-AzureStorageBlobCopycmdlet fornece uma opção para operadores familiarizados com o Azure PowerShell.DistCp é uma ferramenta utilizada para copiar dados entre o armazenamento padrão de um cluster Azure HDInsight e outras contas de Armazenamento Blob ou Azure Data Lake Storage.
O Apache Sqoop é um projeto Apache e faz parte do ecossistema Hadoop. Ele vem pré-instalado em todos os clusters HDInsight. O Sqoop transfere dados entre um cluster HDInsight e bases de dados relacionais como SQL, Oracle e MySQL. É um conjunto de ferramentas relacionadas, incluindo ferramentas de importação e exportação, e funciona com clusters HDInsight usando armazenamento associado ao Blob Storage ou Data Lake Storage.
PolyBase é uma tecnologia que acessa dados fora de um banco de dados através da linguagem T-SQL. Permite fazer consultas a dados externos no Hadoop ou importar e exportar dados do Blob Storage.
A linha de comandos do Hadoop é uma ferramenta que pode usar quando os seus dados residem num nó principal de cluster HDInsight. Podes usar o
hadoop fs -copyFromLocalcomando para copiar esses dados para o armazenamento associado ao teu cluster, como o Blob Storage ou o Data Lake Storage. Para usar o comando Hadoop, deve primeiro ligar-se ao nó principal. Depois de estar ligado, podes carregar um ficheiro para o armazenamento.
Interface gráfica
Considere as seguintes opções se só precisar de transferir alguns ficheiros ou objetos de dados e não precisar de automatizar o processo.
O Azure Storage Explorer é uma ferramenta multiplataforma que lhe permite gerir o conteúdo das suas contas de armazenamento. Permite-lhe carregar, descarregar e gerir blobs, ficheiros, filas, tabelas e entidades da base de dados Azure Cosmos. Use o Explorador de Armazenamento com Armazenamento de Blobs para gerir blobs e pastas, e faça upload e download de blobs entre o seu sistema de ficheiros local e o Armazenamento de Blobs ou entre contas de armazenamento.
O portal Azure é uma aplicação web que fornece uma interface unificada para criar, gerir e monitorizar os recursos Azure. O Blob Storage e o Data Lake Storage fornecem ambos uma interface web para explorar e carregar ficheiros. Esta opção é adequada se não quiser instalar ferramentas ou executar comandos para pesquisar rapidamente os seus ficheiros, ou se só precisar de carregar alguns ficheiros.
Os fluxos de dados do Microsoft Fabric são capacidades baseadas na cloud que ajudam a preparar e transformar dados sem necessidade de escrever código. Fornecem uma interface low-code para ingerir dados de centenas de fontes e transformam os seus dados usando transformadores de dados incorporados e carregando os dados resultantes em destinos suportados.
Sincronização de dados e fluxos de dados
O Azure Data Factory é um serviço gerido concebido para transferir regularmente ficheiros entre serviços Azure, sistemas locais, ou uma combinação de ambos. Ao usar o Data Factory, pode criar e agendar fluxos de trabalho orientados por dados conhecidos como pipelines , que ingerem dados de repositórios de dados díspares. O Data Factory pode processar e transformar os dados utilizando serviços de computação como o Apache Spark e o Azure Machine Learning. Pode criar fluxos de trabalho baseados em dados para orquestrar e automatizar a movimentação e transformação de dados.
A Fabric Data Factory é uma plataforma de integração de dados que lhe permite orquestrar e automatizar a movimentação e transformação de dados em ambientes cloud e híbridos. Permite-lhe construir e agendar fluxos de trabalho orientados por dados (pipelines) que ingerem dados de várias fontes, incluindo armazenamento na cloud, bases de dados e sistemas on-premises. Estes pipelines suportam atividades diversas como movimentação de dados, transformação e fluxo de controlo, e podem usar motores de computação como Spark e SQL dentro de cargas de trabalho Fabric. Com a integração no OneLake, o Fabric assegura acesso unificado aos dados, governação e colaboração em todo o património de dados.
O runtime de integração no Data Factory, o gateway de dados on-premises no Fabric e o gateway de dados de rede virtual proporcionam conectividade segura e capacidades de integração de dados em ambientes cloud, on-premises e de rede virtual.
O Azure Data Box Gateway transfere dados de e para o Azure, mas é um dispositivo virtual, não um disco rígido. As máquinas virtuais (VMs) que residem na sua rede local escrevem dados para o Data Box Gateway utilizando os protocolos de Network File System (NFS) e Server Message Block (SMB). Depois, o dispositivo transfere os seus dados para o Azure.
Principais critérios de seleção
Para cenários de transferência de dados, escolha o sistema certo para as suas necessidades considerando os seguintes pontos:
Determina se precisas de transferir grandes quantidades de dados e se transferir esses dados por uma ligação à internet demoraria demasiado, seria pouco fiável ou demasiado caro. Se sim, considere a transferência física.
Determina se preferes programar as tuas tarefas de transferência de dados para que sejam reutilizáveis. Se sim, selecione uma das opções de linha de comandos ou Data Factory.
Determine se precisa de transferir uma grande quantidade de dados através de uma ligação de rede. Se sim, selecione uma opção otimizada para big data.
Determine se precisa de transferir dados para ou a partir de uma base de dados relacional. Em caso afirmativo, escolha uma opção que ofereça suporte a um ou mais bancos de dados relacionais. Algumas dessas opções também exigem um cluster Hadoop.
Determine se os seus dados precisam de um pipeline automatizado ou de uma orquestração de workflow. Se sim, considere o Data Factory.
Matriz de capacidades
As tabelas a seguir resumem as principais diferenças nos recursos.
Transferência física
| Capacidade | Serviço Importar/Exportar do Microsoft Azure | Data Box |
|---|---|---|
| Fator de forma | HDDs SATA internos ou SDDs | Dispositivo de hardware único, seguro e inviolável |
| A Microsoft gerencia a logística de envio | Não | Sim |
| Integra-se com produtos de parceiros | Não | Sim |
| Aparelho personalizado | Não | Sim |
Ferramentas de linha de comandos
As seguintes ferramentas são compatíveis com Hadoop e HDInsight.
| Capacidade | DistCp | Sqoop | Hadoop CLI |
|---|---|---|---|
| Otimizado para big data | Sim | Sim | Sim |
| Copiar para banco de dados relacional | Não | Sim | Não |
| Copiar do banco de dados relacional | Não | Sim | Não |
| Copiar para Blob Storage | Sim | Sim | Sim |
| Cópia do armazenamento de Blob | Sim | Sim | Não |
| Copiar para o Data Lake Storage | Sim | Sim | Sim |
| Cópia do armazenamento Data Lake | Sim | Sim | Não |
A tabela seguinte inclui ferramentas de transferência de dados de uso geral.
| Capacidade | A CLI do Azure | AzCopy | Azure PowerShell | PoliBase |
|---|---|---|---|---|
| Plataformas compatíveis | Linux, OS X, Windows | Linux, Janelas | Mac OS | SQL Server |
| Otimizado para big data | Não | Sim | Não | Sim 1 |
| Copiar para banco de dados relacional | Não | Não | Não | Sim |
| Copiar do banco de dados relacional | Não | Não | Não | Sim |
| Copiar para Blob Storage | Sim | Sim | Sim | Sim |
| Cópia do armazenamento de Blob | Sim | Sim | Sim | Sim |
| Copiar para o Data Lake Storage | Não | Sim | Sim | Sim |
| Cópia do armazenamento Data Lake | Não | Não | Sim | Sim |
1 O desempenho do PolyBase pode ser melhorado enviando o cálculo para o Hadoop e utilizando grupos de escalonamento do PolyBase para permitir a transferência paralela de dados entre instâncias do SQL Server e nós do Hadoop.
Interfaces gráficas, sincronização de dados e pipelines de dados
| Capacidade | Explorador de Armazenamento | Portal do Azure 2 | Data Factory | Data Box Gateway | Dataflows |
|---|---|---|---|---|---|
| Otimizado para big data | Não | Não | Sim | Sim | Sim |
| Copiar para banco de dados relacional | Não | Não | Sim | Não | Sim |
| Copiar do banco de dados relacional | Não | Não | Sim | Não | Sim |
| Copiar para Blob Storage | Sim | Não | Sim | Sim | Sim |
| Cópia do armazenamento de Blob | Sim | Não | Sim | Não | Sim |
| Copiar para o Data Lake Storage | Não | Não | Sim | Não | Sim |
| Cópia do armazenamento Data Lake | Não | Não | Sim | Não | Sim |
| Carregar para o Armazenamento de Blobs | Sim | Sim | Sim | Sim | Sim |
| Fazer upload para o armazenamento Data Lake | Sim | Sim | Sim | Sim | Sim |
| Orquestre transferências de dados | Não | Não | Sim | Não | Sim |
| Transformações de dados personalizadas | Não | Não | Sim | Não | Sim |
| Modelo de preços | Gratuito | Gratuito | Pagamento por utilização | Pagamento por unidade | Pagamento por utilização |
2 O portal Azure, neste caso, representa as ferramentas de exploração baseadas na web para Blob Storage e Data Lake Storage.
Contribuidores
A Microsoft mantém este artigo. Os seguintes colaboradores escreveram este artigo.
Autor principal:
- Zoiner Tejada | CEO e Arquiteto
Outros contribuidores:
- Prabhjot Kaur | Engenheiro Sénior de Soluções
- Sriram Kolla | Arquiteto Principal de Soluções Cloud
Para ver perfis não públicos do LinkedIn, faça login no LinkedIn.