Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo descreve várias opções que você pode usar para transferir dados de e para o Azure, dependendo de suas necessidades.
Transferência física
Usar o hardware físico para transferir dados para o Azure é uma boa opção quando os seguintes fatores se aplicam:
- A rede está lenta ou não é confiável.
- Obter mais largura de banda de rede é muito caro.
- As políticas organizacionais ou de segurança não permitem conexões de saída ao lidar com dados confidenciais.
Se sua principal preocupação é quanto tempo leva para transferir seus dados, considere testar para confirmar se a transferência de rede é mais lenta do que o transporte físico.
O serviço de Importação/Exportação do Azure e o Azure Data Box são as duas principais opções para o transporte físico de dados para o Azure.
O serviço de Importação/Exportação do Azure
O serviço de Importação/Exportação do Azure permite transferir com segurança grandes quantidades de dados para o Armazenamento de Blobs do Azure ou arquivos do Azure enviando HDDs (unidades de disco rígido) internas do SATA (Serial Advanced Technology Attachment) ou SDDs (unidades de estado sólido) para um datacenter do Azure. Você também pode usar esse serviço para transferir dados do Armazenamento do Azure para HDDs e ter as unidades enviadas para você para carregar localmente.
Data Box
O Data Box é um dispositivo da Microsoft que funciona de forma semelhante ao serviço de Importação/Exportação do Azure. Com o Data Box, a Microsoft fornece um dispositivo de transferência proprietário, seguro e resistente a adulterações e manipula a logística de ponta a ponta, que você pode acompanhar por meio do portal do Azure. Um dos benefícios do serviço Data Box é a facilidade de uso. Você não precisa comprar várias unidades de disco rígido, prepará-las e transferir arquivos para cada uma delas. Muitos parceiros do Azure dão suporte ao Data Box, o que facilita o uso do transporte offline para a nuvem em suas soluções.
Ferramentas de linha de comando e APIs
Considere as seguintes opções quando precisar de transferência de dados com scripts e programação:
A CLI do Azure é uma ferramenta multiplataforma que permite gerenciar os serviços do Azure e carregar dados no Armazenamento.
O AzCopy é um utilitário de linha de comando que permite copiar dados de e para o Armazenamento de Blobs, armazenamento de Arquivos do Azure e Armazenamento de Tabelas do Azure com desempenho ideal. O AzCopy dá suporte à simultaneidade e ao paralelismo e à capacidade de retomar as operações de cópia quando elas forem interrompidas. Você também pode usar o AzCopy para copiar dados do Amazon Web Services (AWS) para o Azure. Para acesso programático, a biblioteca de movimentação de dados do Microsoft Azure Storage é a estrutura principal que alimenta o AzCopy. Ela é fornecida como uma biblioteca .NET Core.
O Azure PowerShell é um ambiente de script em que o
Start-AzureStorageBlobCopycmdlet fornece uma opção para operadores familiarizados com o Azure PowerShell.O DistCp é um utilitário usado para copiar dados entre o armazenamento padrão de um cluster HDInsight do Azure e outras contas do Armazenamento de Blobs ou do Azure Data Lake Storage.
O Apache Sqoop é um projeto do Apache e faz parte do ecossistema do Hadoop. Ele vem pré-instalado em todos os clusters HDInsight. O Sqoop transfere dados entre um cluster HDInsight e bancos de dados relacionais como SQL, Oracle e MySQL. É uma coleção de ferramentas relacionadas, incluindo ferramentas de importação e exportação, e funciona com clusters HDInsight usando Armazenamento de Blobs ou armazenamento anexado do Data Lake Storage.
O PolyBase é uma tecnologia que acessa dados fora do banco de dados por meio da linguagem T-SQL. Ele permite executar consultas em dados externos no Hadoop ou importar e exportar dados do Armazenamento de Blobs.
A linha de comando do Hadoop é uma ferramenta que você pode usar quando seus dados residem em um nó principal do cluster HDInsight. Você pode usar o
hadoop fs -copyFromLocalcomando para copiar esses dados para o armazenamento anexado do cluster, como o Armazenamento de Blobs ou o Data Lake Storage. Para usar o comando Hadoop, primeiro você deve se conectar ao nó principal. Depois de conectado, você pode enviar um arquivo para o armazenamento.
Interface gráfica
Considere as opções a seguir se você precisar transferir apenas alguns arquivos ou objetos de dados e não precisar automatizar o processo.
O Gerenciador de Armazenamento do Azure é uma ferramenta multiplataforma que permite gerenciar o conteúdo de suas contas de Armazenamento. Ele permite carregar, baixar e gerenciar blobs, arquivos, filas, tabelas e entidades do Azure Cosmos DB. Use o Gerenciador de Armazenamento com Armazenamento de Blobs para gerenciar blobs e pastas e carregar e baixar blobs entre o sistema de arquivos local e o Armazenamento de Blobs ou entre contas de armazenamento.
O portal do Azure é um aplicativo baseado na Web que fornece uma interface unificada para criar, gerenciar e monitorar recursos do Azure. O Armazenamento de Blobs e o Data Lake Storage fornecem uma interface baseada na Web para explorar e carregar arquivos. Essa opção é adequada se você não quiser instalar ferramentas ou executar comandos para pesquisar rapidamente seus arquivos ou se precisar carregar apenas alguns arquivos.
Os fluxos de dados do Microsoft Fabric são recursos baseados em nuvem que ajudam você a preparar e transformar dados sem escrever código. Eles fornecem uma interface de baixo código para ingerir dados de centenas de fontes e transformar seus dados usando transformadores de dados internos e carregando os dados resultantes em destinos com suporte.
Sincronização de dados e pipelines
O Azure Data Factory é um serviço gerenciado projetado para transferir regularmente arquivos entre serviços do Azure, sistemas locais ou uma combinação de ambos. Usando o Data Factory, você pode criar e agendar fluxos de trabalho controlados por dados conhecidos como pipelines que ingerem dados de armazenamentos de dados diferentes. O Data Factory pode processar e transformar os dados usando serviços de computação como Apache Spark e Azure Machine Learning. Você pode criar fluxos de trabalho orientados por dados para orquestrar e automatizar a movimentação e a transformação de dados.
O Fabric Data Factory é uma plataforma de integração de dados que permite orquestrar e automatizar a movimentação e a transformação de dados em ambientes de nuvem e híbridos. Ele permite criar e agendar fluxos de trabalho controlados por dados (pipelines) que ingerem dados de várias fontes, incluindo armazenamento em nuvem, bancos de dados e sistemas locais. Esses pipelines dão suporte a atividades diversas, como movimentação de dados, transformação e fluxo de controle, e podem usar mecanismos de computação como Spark e SQL em cargas de trabalho do Fabric. Com a integração ao OneLake, o Fabric garante acesso unificado a dados, governança e colaboração em todo o conjunto de dados.
O runtime de integração no Data Factory, o gateway de dados local no Fabric e o gateway de dados de rede virtual fornecem funcionalidades seguras de conectividade e integração de dados em ambientes de nuvem, locais e de rede virtual.
O Azure Data Box Gateway transfere dados para e do Azure, mas é um appliance virtual, não um disco rígido. Máquinas virtuais (VMs) que residem em sua rede local gravam dados no Data Box Gateway usando os protocolos NFS (Sistema de Arquivos de Rede) e SMB (Bloco de Mensagens do Servidor). Em seguida, o dispositivo transfere seus dados para o Azure.
Principais critérios de seleção
Para cenários de transferência de dados, escolha o sistema certo para suas necessidades considerando os seguintes pontos:
Determine se você precisa transferir grandes quantidades de dados e transferir os dados por uma conexão com a Internet levaria muito tempo, não seria confiável ou seria muito caro. Em caso afirmativo, considere a transferência física.
Determine se você prefere criar script de tarefas de transferência de dados para que elas sejam reutilizáveis. Se sim, selecione uma das opções de linha de comando ou Data Factory.
Determine se você precisa transferir uma grande quantidade de dados por uma conexão de rede. Se sim, selecione uma opção otimizada para Big Data.
Determine se você precisa transferir dados de ou para um banco de dados relacional. Em caso afirmativo, escolha uma opção que dá suporte a um ou mais bancos de dados relacionais. Algumas dessas opções também exigem um cluster Hadoop.
Determine se seus dados precisam de um pipeline automatizado ou orquestração de fluxo de trabalho. Se sim, considere usar o Data Factory.
Matriz de funcionalidades
As tabelas a seguir resumem as principais diferenças em funcionalidades.
Transferência física
| Capacidade | O serviço de Importação/Exportação do Azure | Data Box |
|---|---|---|
| Fator forma | HDDs ou SDDs SATA internos | Dispositivo de único hardware, seguro e à prova de adulteração |
| A Microsoft gerencia a logística de envio | Não | Sim |
| É integrado a produtos de parceiros | Não | Sim |
| Dispositivo personalizado | Não | Sim |
Ferramentas da linha de comando
As ferramentas a seguir são compatíveis com Hadoop e HDInsight.
| Capacidade | DistCp | Sqoop | CLI do Hadoop |
|---|---|---|---|
| Otimizado para Big Data | Sim | Sim | Sim |
| Copiar para o banco de dados relacional | Não | Sim | Não |
| Copiar do banco de dados relacional | Não | Sim | Não |
| Copiar para Armazenamento de Blobs | Sim | Sim | Sim |
| Copiar do Armazenamento de Blobs | Sim | Sim | Não |
| Copiar para o Data Lake Storage | Sim | Sim | Sim |
| Copiar do Data Lake Storage | Sim | Sim | Não |
A tabela a seguir inclui ferramentas de transferência de dados de uso geral.
| Capacidade | A CLI do Azure | AzCopy | Azure PowerShell | PolyBase |
|---|---|---|---|---|
| Plataformas compatíveis | Linux, OS X, Windows | Linux, Windows | Windows | SQL Server |
| Otimizado para Big Data | Não | Sim | Não | Sim 1 |
| Copiar para o banco de dados relacional | Não | Não | Não | Sim |
| Copiar do banco de dados relacional | Não | Não | Não | Sim |
| Copiar para Armazenamento de Blobs | Sim | Sim | Sim | Sim |
| Copiar do Armazenamento de Blobs | Sim | Sim | Sim | Sim |
| Copiar para o Data Lake Storage | Não | Sim | Sim | Sim |
| Copiar do Data Lake Storage | Não | Não | Sim | Sim |
1 O desempenho do PolyBase pode ser melhorado deslocando a computação para o Hadoop e usando grupos de expansão do PolyBase para habilitar a transferência de dados paralela entre instâncias do SQL Server e nós Hadoop.
Interfaces gráficas, sincronização de dados e pipelines de dados
| Capacidade | Gerenciador de Armazenamento | O portal do Azure 2 | Data Factory | Data Box Gateway | Fluxos de Dados |
|---|---|---|---|---|---|
| Otimizado para Big Data | Não | Não | Sim | Sim | Sim |
| Copiar para o banco de dados relacional | Não | Não | Sim | Não | Sim |
| Copiar do banco de dados relacional | Não | Não | Sim | Não | Sim |
| Copiar para Armazenamento de Blobs | Sim | Não | Sim | Sim | Sim |
| Copiar do Armazenamento de Blobs | Sim | Não | Sim | Não | Sim |
| Copiar para o Data Lake Storage | Não | Não | Sim | Não | Sim |
| Copiar do Data Lake Storage | Não | Não | Sim | Não | Sim |
| Carregar no Armazenamento de Blobs | Sim | Sim | Sim | Sim | Sim |
| Upload para o Data Lake Storage | Sim | Sim | Sim | Sim | Sim |
| Orquestrar transferências de dados | Não | Não | Sim | Não | Sim |
| Transformações de dados personalizadas | Não | Não | Sim | Não | Sim |
| Modelo de preços | Gratuito | Gratuito | Pagamento por uso | Pague por unidade | Pagamento por uso |
2 O portal do Azure, nesse caso, representa as ferramentas de exploração baseadas na Web para o Armazenamento de Blobs e o Data Lake Storage.
Colaboradores
A Microsoft mantém este artigo. Os colaboradores a seguir escreveram este artigo.
Autor principal:
- Zoiner Tejada | CEO e arquiteto
Outros colaboradores:
- Prabhjot Kaur | Engenheiro sênior de soluções
- Sriram Kolla | Arquiteto principal de soluções de nuvem
Para ver perfis não públicos no LinkedIn, entre no LinkedIn.