Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se describen varias opciones que puede usar para transferir datos a y desde Azure, en función de sus necesidades.
Transferencia física
El uso del hardware físico para transferir datos a Azure es una buena opción cuando se aplican los siguientes factores:
- La red funciona con lentitud o es poco confiable.
- Obtener más ancho de banda de red es demasiado caro.
- Las directivas de seguridad o de la organización no permiten conexiones salientes al controlar datos confidenciales.
Si su principal preocupación es cuánto tiempo se tarda en transferir los datos, considere la posibilidad de probar para confirmar si la transferencia de red es más lenta que el transporte físico.
El servicio Azure Import/Export y Azure Data Box son las dos opciones principales para transportar datos físicamente a Azure.
El servicio Azure Import/Export
El servicio Azure Import/Export permite transferir de forma segura grandes cantidades de datos a Azure Blob Storage o Azure Files mediante el envío de unidades de disco duro (HDD) o unidades de disco duro de estado sólido (HDD) internas a un centro de datos de Azure. También puede usar este servicio para transferir datos de Azure Storage a HDD y hacer que las unidades se le envíen para cargarlos de forma local.
Caja de Datos
Data Box es un dispositivo de Microsoft que funciona de forma similar al servicio Azure Import/Export. Con Data Box, Microsoft le envía un dispositivo de transferencia propietario, seguro y resistente a alteraciones y administra la logística de un extremo a otro, que puede realizar un seguimiento a través de Azure Portal. Una ventaja del servicio Data Box es lo fácil que es usarlo. No es preciso adquirir varios discos duros, prepararlos y transferir archivos a todos y cada uno de ellos. Muchos asociados de Azure admiten Data Box, lo que facilita el uso del transporte sin conexión a la nube dentro de sus soluciones.
Herramientas de línea de comandos y API
Tenga en cuenta las siguientes opciones cuando necesite la transferencia de datos mediante scripts y mediante programación:
La CLI de Azure es una herramienta multiplataforma que permite administrar los servicios de Azure y cargar datos en Storage.
AzCopy es una utilidad de línea de comandos que permite copiar datos hacia y desde Blob Storage, Azure Files Storage y Azure Table Storage con un rendimiento óptimo. AzCopy admite la simultaneidad y el paralelismo, y permite reanudar operaciones de copia cuando si se interrumpen. También puede usar AzCopy para copiar datos de Amazon Web Services (AWS) en Azure. Para el acceso mediante programación, la biblioteca de movimiento de datos de Microsoft Azure Storage es el marco principal que impulsa AzCopy. Se proporciona en forma de biblioteca de .NET Core.
Azure PowerShell es un entorno de scripting donde el
Start-AzureStorageBlobCopycmdlet proporciona una opción para los operadores que están familiarizados con Azure PowerShell.DistCp es una utilidad que se usa para copiar datos entre el almacenamiento predeterminado de un clúster de Azure HDInsight y otras cuentas de Blob Storage o Azure Data Lake Storage.
Apache Sqoop es un proyecto de Apache y parte del ecosistema de Hadoop. Viene preinstalado en todos los clústeres de HDInsight. Sqoop transfiere datos entre un clúster de HDInsight y bases de datos relacionales como SQL, Oracle y MySQL. Se trata de una colección de herramientas relacionadas, incluidas las herramientas de importación y exportación, y funciona con clústeres de HDInsight mediante Blob Storage o almacenamiento conectado a Data Lake Storage.
PolyBase es una tecnología que accede a datos que están fuera de la base de datos a través del lenguaje de T-SQL. Permite ejecutar consultas en datos externos en Hadoop o importar y exportar datos desde Blob Storage.
La línea de comandos de Hadoop es una herramienta que puede usar cuando los datos residen en un nodo principal del clúster de HDInsight. Puede usar el
hadoop fs -copyFromLocalcomando para copiar esos datos en el almacenamiento conectado del clúster, como Blob Storage o Data Lake Storage. Para usar el comando de Hadoop, primero debe conectarse al nodo principal. Una vez conectado, puede cargar un archivo en el almacenamiento.
Interfaz gráfica
Tenga en cuenta las siguientes opciones si solo necesita transferir algunos archivos o objetos de datos y no es necesario automatizar el proceso.
El Explorador de Azure Storage es una herramienta multiplataforma que le permite administrar el contenido de las cuentas de Storage. Permite cargar, descargar y administrar blobs, archivos, colas, tablas y entidades de Azure Cosmos DB. Use el Explorador de Storage con Blob Storage para administrar blobs y carpetas, y cargar y descargar blobs entre el sistema de archivos local y Blob Storage o entre cuentas de almacenamiento.
Azure Portal es una aplicación basada en web que proporciona una interfaz unificada para crear, administrar y supervisar recursos de Azure. Blob Storage y Data Lake Storage proporcionan una interfaz basada en web para explorar y cargar archivos. Esta opción es adecuada si no desea instalar herramientas o ejecutar comandos para buscar rápidamente los archivos, o si solo necesita cargar algunos archivos.
Los flujos de datos de Microsoft Fabric son funcionalidades basadas en la nube que le ayudan a preparar y transformar datos sin escribir código. Proporcionan una interfaz de poco código para ingerir datos de cientos de orígenes y transforman los datos mediante transformadores de datos integrados y cargan los datos resultantes en destinos admitidos.
Sincronización de datos y canalizaciones
Azure Data Factory es un servicio administrado diseñado para transferir archivos periódicamente entre servicios de Azure, sistemas locales o una combinación de ambos. Con Data Factory, puede crear y programar flujos de trabajo controlados por datos conocidos como canalizaciones que ingieren datos de almacenes de datos dispares. Data Factory puede procesar y transformar los datos mediante servicios de proceso como Apache Spark y Azure Machine Learning. Puede crear flujos de trabajo impulsados por datos para orquestar y automatizar tanto el movimiento como la transformación de datos.
Fabric Data Factory es una plataforma de integración de datos que permite organizar y automatizar el movimiento y la transformación de datos en entornos híbridos y en la nube. Permite crear y programar flujos de trabajo controlados por datos (canalizaciones) que ingieren datos de varios orígenes, como el almacenamiento en la nube, las bases de datos y los sistemas locales. Estas canalizaciones admiten diversas actividades, como el movimiento de datos, la transformación y el flujo de control, y pueden usar motores de proceso como Spark y SQL en cargas de trabajo de Fabric. Con la integración en OneLake, Fabric garantiza el acceso unificado a los datos, la gobernanza y la colaboración en todo el patrimonio de datos.
El entorno de ejecución de integración de Data Factory, la puerta de enlace de datos local en Fabric y la puerta de enlace de datos de red virtual proporcionan conectividad segura y funcionalidades de integración de datos en entornos de nube, locales y de red virtual.
Azure Data Box Gateway transfiere datos hacia y desde Azure, pero se trata de una aplicación virtual no de una unidad de disco duro. Las máquinas virtuales que residen en la red local escriben datos en Data Box Gateway mediante los protocolos Network File System (NFS) y Bloque de mensajes del servidor (SMB). A continuación, el dispositivo transfiere los datos a Azure.
Principales criterios de selección
Para escenarios de transferencia de datos, elija el sistema adecuado para sus necesidades teniendo en cuenta los siguientes puntos:
Determine si necesita transferir grandes cantidades de datos y transferirlos a través de una conexión a Internet tardaría demasiado tiempo, no ser confiable o ser demasiado caro. Si es así, considere la posibilidad de realizar transferencias físicas.
Determine si prefiere crear scripts de las tareas de transferencia de datos para que sean reutilizables. Si es así, seleccione una de las opciones de línea de comandos o Data Factory.
Determine si necesita transferir una gran cantidad de datos a través de una conexión de red. Si es así, seleccione una opción optimizada para macrodatos.
Determine si necesita transferir datos a o desde una base de datos relacional. En caso afirmativo, elija una opción que admita una o varias bases de datos relacionales. Algunas de estas opciones también requieren un clúster de Hadoop.
Determine si los datos necesitan una canalización automatizada o una orquestación de flujo de trabajo. Si es así, considere la posibilidad de usar Data Factory.
Matriz de funcionalidades
En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.
Transferencia física
| Capacidad | El servicio Azure Import/Export | Caja de Datos |
|---|---|---|
| Factor de forma | Unidades de disco duro o SSD SATA internas | Dispositivo de hardware individual seguro y a prueba de alteraciones |
| Microsoft administra la logística de envío | No | Sí |
| Se integra con productos de asociados | No | Sí |
| Aparato personalizado | No | Sí |
Herramientas de línea de comandos
Las siguientes herramientas son compatibles con Hadoop y HDInsight.
| Capacidad | DistCp | Sqoop | CLI de Hadoop |
|---|---|---|---|
| Optimizado para macrodatos | Sí | Sí | Sí |
| Copiar a base de datos relacional | No | Sí | No |
| Copiar de base de datos relacional | No | Sí | No |
| Copiar a Blob Storage | Sí | Sí | Sí |
| Copiar de Blob Storage | Sí | Sí | No |
| Copiar a Data Lake Storage | Sí | Sí | Sí |
| Copiar de Data Lake Storage | Sí | Sí | No |
En la tabla siguiente se incluyen herramientas de transferencia de datos de uso general.
| Capacidad | La CLI de Azure | AzCopy | Azure PowerShell | PolyBase |
|---|---|---|---|---|
| Plataformas compatibles | Linux, OS X y Windows | Linux y Windows | Windows | SQL Server |
| Optimizado para macrodatos | No | Sí | No | Sí 1 |
| Copiar a base de datos relacional | No | No | No | Sí |
| Copiar de base de datos relacional | No | No | No | Sí |
| Copiar a Blob Storage | Sí | Sí | Sí | Sí |
| Copiar de Blob Storage | Sí | Sí | Sí | Sí |
| Copiar a Data Lake Storage | No | Sí | Sí | Sí |
| Copiar de Data Lake Storage | No | No | Sí | Sí |
1 El rendimiento de PolyBase se puede mejorar mediante la inserción de cálculos en Hadoop y el uso de grupos de escalado horizontal de PolyBase para habilitar la transferencia de datos paralela entre instancias de SQL Server y nodos de Hadoop.
Interfaces gráficas, sincronización de datos y canalizaciones de datos
| Capacidad | Storage Explorer | Azure Portal 2 | Fábrica de Datos | Puerta de enlace de Data Box | Dataflows |
|---|---|---|---|---|---|
| Optimizado para macrodatos | No | No | Sí | Sí | Sí |
| Copiar a base de datos relacional | No | No | Sí | No | Sí |
| Copiar de base de datos relacional | No | No | Sí | No | Sí |
| Copiar a Blob Storage | Sí | No | Sí | Sí | Sí |
| Copiar de Blob Storage | Sí | No | Sí | No | Sí |
| Copiar a Data Lake Storage | No | No | Sí | No | Sí |
| Copiar de Data Lake Storage | No | No | Sí | No | Sí |
| Cargar en Blob Storage | Sí | Sí | Sí | Sí | Sí |
| Cargar en Data Lake Storage | Sí | Sí | Sí | Sí | Sí |
| Orquestar las transferencias de datos | No | No | Sí | No | Sí |
| Personalizar las transformaciones de datos | No | No | Sí | No | Sí |
| Modelo de precios | Gratuito | Gratuito | Pago por uso | Pago por unidad | Pago por uso |
2 En este caso, Azure Portal representa las herramientas de exploración basadas en web para Blob Storage y Data Lake Storage.
Colaboradores
Microsoft mantiene este artículo. Los colaboradores siguientes escribieron este artículo.
Autor principal:
- Zoiner Tejada | Director ejecutivo y arquitecto
Otros colaboradores:
- Prabhjot Kaur | Ingeniero sénior de soluciones
- Sriram Kolla | Arquitecto principal de soluciones en la nube
Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.