Compartir a través de


Elección de una tecnología de transferencia de datos

En este artículo se describen varias opciones que puede usar para transferir datos a y desde Azure, en función de sus necesidades.

Transferencia física

El uso del hardware físico para transferir datos a Azure es una buena opción cuando se aplican los siguientes factores:

  • La red funciona con lentitud o es poco confiable.
  • Obtener más ancho de banda de red es demasiado caro.
  • Las directivas de seguridad o de la organización no permiten conexiones salientes al controlar datos confidenciales.

Si su principal preocupación es cuánto tiempo se tarda en transferir los datos, considere la posibilidad de probar para confirmar si la transferencia de red es más lenta que el transporte físico.

El servicio Azure Import/Export y Azure Data Box son las dos opciones principales para transportar datos físicamente a Azure.

El servicio Azure Import/Export

El servicio Azure Import/Export permite transferir de forma segura grandes cantidades de datos a Azure Blob Storage o Azure Files mediante el envío de unidades de disco duro (HDD) o unidades de disco duro de estado sólido (HDD) internas a un centro de datos de Azure. También puede usar este servicio para transferir datos de Azure Storage a HDD y hacer que las unidades se le envíen para cargarlos de forma local.

Caja de Datos

Data Box es un dispositivo de Microsoft que funciona de forma similar al servicio Azure Import/Export. Con Data Box, Microsoft le envía un dispositivo de transferencia propietario, seguro y resistente a alteraciones y administra la logística de un extremo a otro, que puede realizar un seguimiento a través de Azure Portal. Una ventaja del servicio Data Box es lo fácil que es usarlo. No es preciso adquirir varios discos duros, prepararlos y transferir archivos a todos y cada uno de ellos. Muchos asociados de Azure admiten Data Box, lo que facilita el uso del transporte sin conexión a la nube dentro de sus soluciones.

Herramientas de línea de comandos y API

Tenga en cuenta las siguientes opciones cuando necesite la transferencia de datos mediante scripts y mediante programación:

  • La CLI de Azure es una herramienta multiplataforma que permite administrar los servicios de Azure y cargar datos en Storage.

  • AzCopy es una utilidad de línea de comandos que permite copiar datos hacia y desde Blob Storage, Azure Files Storage y Azure Table Storage con un rendimiento óptimo. AzCopy admite la simultaneidad y el paralelismo, y permite reanudar operaciones de copia cuando si se interrumpen. También puede usar AzCopy para copiar datos de Amazon Web Services (AWS) en Azure. Para el acceso mediante programación, la biblioteca de movimiento de datos de Microsoft Azure Storage es el marco principal que impulsa AzCopy. Se proporciona en forma de biblioteca de .NET Core.

  • Azure PowerShell es un entorno de scripting donde el Start-AzureStorageBlobCopy cmdlet proporciona una opción para los operadores que están familiarizados con Azure PowerShell.

  • DistCp es una utilidad que se usa para copiar datos entre el almacenamiento predeterminado de un clúster de Azure HDInsight y otras cuentas de Blob Storage o Azure Data Lake Storage.

  • Apache Sqoop es un proyecto de Apache y parte del ecosistema de Hadoop. Viene preinstalado en todos los clústeres de HDInsight. Sqoop transfiere datos entre un clúster de HDInsight y bases de datos relacionales como SQL, Oracle y MySQL. Se trata de una colección de herramientas relacionadas, incluidas las herramientas de importación y exportación, y funciona con clústeres de HDInsight mediante Blob Storage o almacenamiento conectado a Data Lake Storage.

  • PolyBase es una tecnología que accede a datos que están fuera de la base de datos a través del lenguaje de T-SQL. Permite ejecutar consultas en datos externos en Hadoop o importar y exportar datos desde Blob Storage.

  • La línea de comandos de Hadoop es una herramienta que puede usar cuando los datos residen en un nodo principal del clúster de HDInsight. Puede usar el hadoop fs -copyFromLocal comando para copiar esos datos en el almacenamiento conectado del clúster, como Blob Storage o Data Lake Storage. Para usar el comando de Hadoop, primero debe conectarse al nodo principal. Una vez conectado, puede cargar un archivo en el almacenamiento.

Interfaz gráfica

Tenga en cuenta las siguientes opciones si solo necesita transferir algunos archivos o objetos de datos y no es necesario automatizar el proceso.

  • El Explorador de Azure Storage es una herramienta multiplataforma que le permite administrar el contenido de las cuentas de Storage. Permite cargar, descargar y administrar blobs, archivos, colas, tablas y entidades de Azure Cosmos DB. Use el Explorador de Storage con Blob Storage para administrar blobs y carpetas, y cargar y descargar blobs entre el sistema de archivos local y Blob Storage o entre cuentas de almacenamiento.

  • Azure Portal es una aplicación basada en web que proporciona una interfaz unificada para crear, administrar y supervisar recursos de Azure. Blob Storage y Data Lake Storage proporcionan una interfaz basada en web para explorar y cargar archivos. Esta opción es adecuada si no desea instalar herramientas o ejecutar comandos para buscar rápidamente los archivos, o si solo necesita cargar algunos archivos.

  • Los flujos de datos de Microsoft Fabric son funcionalidades basadas en la nube que le ayudan a preparar y transformar datos sin escribir código. Proporcionan una interfaz de poco código para ingerir datos de cientos de orígenes y transforman los datos mediante transformadores de datos integrados y cargan los datos resultantes en destinos admitidos.

Sincronización de datos y canalizaciones

  • Azure Data Factory es un servicio administrado diseñado para transferir archivos periódicamente entre servicios de Azure, sistemas locales o una combinación de ambos. Con Data Factory, puede crear y programar flujos de trabajo controlados por datos conocidos como canalizaciones que ingieren datos de almacenes de datos dispares. Data Factory puede procesar y transformar los datos mediante servicios de proceso como Apache Spark y Azure Machine Learning. Puede crear flujos de trabajo impulsados por datos para orquestar y automatizar tanto el movimiento como la transformación de datos.

  • Fabric Data Factory es una plataforma de integración de datos que permite organizar y automatizar el movimiento y la transformación de datos en entornos híbridos y en la nube. Permite crear y programar flujos de trabajo controlados por datos (canalizaciones) que ingieren datos de varios orígenes, como el almacenamiento en la nube, las bases de datos y los sistemas locales. Estas canalizaciones admiten diversas actividades, como el movimiento de datos, la transformación y el flujo de control, y pueden usar motores de proceso como Spark y SQL en cargas de trabajo de Fabric. Con la integración en OneLake, Fabric garantiza el acceso unificado a los datos, la gobernanza y la colaboración en todo el patrimonio de datos.

    El entorno de ejecución de integración de Data Factory, la puerta de enlace de datos local en Fabric y la puerta de enlace de datos de red virtual proporcionan conectividad segura y funcionalidades de integración de datos en entornos de nube, locales y de red virtual.

  • Azure Data Box Gateway transfiere datos hacia y desde Azure, pero se trata de una aplicación virtual no de una unidad de disco duro. Las máquinas virtuales que residen en la red local escriben datos en Data Box Gateway mediante los protocolos Network File System (NFS) y Bloque de mensajes del servidor (SMB). A continuación, el dispositivo transfiere los datos a Azure.

Principales criterios de selección

Para escenarios de transferencia de datos, elija el sistema adecuado para sus necesidades teniendo en cuenta los siguientes puntos:

  • Determine si necesita transferir grandes cantidades de datos y transferirlos a través de una conexión a Internet tardaría demasiado tiempo, no ser confiable o ser demasiado caro. Si es así, considere la posibilidad de realizar transferencias físicas.

  • Determine si prefiere crear scripts de las tareas de transferencia de datos para que sean reutilizables. Si es así, seleccione una de las opciones de línea de comandos o Data Factory.

  • Determine si necesita transferir una gran cantidad de datos a través de una conexión de red. Si es así, seleccione una opción optimizada para macrodatos.

  • Determine si necesita transferir datos a o desde una base de datos relacional. En caso afirmativo, elija una opción que admita una o varias bases de datos relacionales. Algunas de estas opciones también requieren un clúster de Hadoop.

  • Determine si los datos necesitan una canalización automatizada o una orquestación de flujo de trabajo. Si es así, considere la posibilidad de usar Data Factory.

Matriz de funcionalidades

En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.

Transferencia física

Capacidad El servicio Azure Import/Export Caja de Datos
Factor de forma Unidades de disco duro o SSD SATA internas Dispositivo de hardware individual seguro y a prueba de alteraciones
Microsoft administra la logística de envío No
Se integra con productos de asociados No
Aparato personalizado No

Herramientas de línea de comandos

Las siguientes herramientas son compatibles con Hadoop y HDInsight.

Capacidad DistCp Sqoop CLI de Hadoop
Optimizado para macrodatos
Copiar a base de datos relacional No No
Copiar de base de datos relacional No No
Copiar a Blob Storage
Copiar de Blob Storage No
Copiar a Data Lake Storage
Copiar de Data Lake Storage No

En la tabla siguiente se incluyen herramientas de transferencia de datos de uso general.

Capacidad La CLI de Azure AzCopy Azure PowerShell PolyBase
Plataformas compatibles Linux, OS X y Windows Linux y Windows Windows SQL Server
Optimizado para macrodatos No No 1
Copiar a base de datos relacional No No No
Copiar de base de datos relacional No No No
Copiar a Blob Storage
Copiar de Blob Storage
Copiar a Data Lake Storage No
Copiar de Data Lake Storage No No

1 El rendimiento de PolyBase se puede mejorar mediante la inserción de cálculos en Hadoop y el uso de grupos de escalado horizontal de PolyBase para habilitar la transferencia de datos paralela entre instancias de SQL Server y nodos de Hadoop.

Interfaces gráficas, sincronización de datos y canalizaciones de datos

Capacidad Storage Explorer Azure Portal 2 Fábrica de Datos Puerta de enlace de Data Box Dataflows
Optimizado para macrodatos No No
Copiar a base de datos relacional No No No
Copiar de base de datos relacional No No No
Copiar a Blob Storage No
Copiar de Blob Storage No No
Copiar a Data Lake Storage No No No
Copiar de Data Lake Storage No No No
Cargar en Blob Storage
Cargar en Data Lake Storage
Orquestar las transferencias de datos No No No
Personalizar las transformaciones de datos No No No
Modelo de precios Gratuito Gratuito Pago por uso Pago por unidad Pago por uso

2 En este caso, Azure Portal representa las herramientas de exploración basadas en web para Blob Storage y Data Lake Storage.

Colaboradores

Microsoft mantiene este artículo. Los colaboradores siguientes escribieron este artículo.

Autor principal:

Otros colaboradores:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Paso siguiente