Compartir a través de


Configuración de un laboratorio para el análisis de macrodatos en Azure Lab Services mediante la implementación de Docker de HortonWorks Data Platform

Importante

Azure Lab Services se retirará el 28 de junio de 2027. Para obtener más información, consulte la guía de retirada.

Nota:

En este artículo se hace referencia a las características disponibles en los planes de laboratorio, que reemplazaron las cuentas de laboratorio.

En este artículo se muestra cómo configurar un laboratorio para enseñar una clase de análisis de macrodatos. Una clase de análisis de macrodatos enseña a los usuarios a controlar grandes volúmenes de datos. También les enseña a aplicar algoritmos de aprendizaje automático y estadístico para derivar información de datos. Un objetivo clave es aprender a usar herramientas de análisis de datos, como el paquete de software de código abierto de Apache Hadoop. El paquete de software proporciona herramientas para almacenar, administrar y procesar macrodatos.

En este laboratorio, los usuarios del laboratorio trabajan con una versión comercial popular de Hadoop proporcionada por Cloudera, denominada Hortonworks Data Platform (HDP). En concreto, los usuarios de laboratorio usan HDP Sandbox 3.0.1 que es una versión simplificada y fácil de usar de la plataforma. HDP Sandbox 3.0.1 también es gratuito y está pensado para aprender y experimentar. Aunque esta clase puede usar máquinas virtuales (VM) Windows o Linux con una instancia de HDP Sandbox implementada, En este artículo se muestra cómo usar Windows.

Otro aspecto interesante es que se despliega la sandbox de HDP en las máquinas virtuales del laboratorio mediante contenedores de Docker. Cada contenedor de Docker proporciona su propio entorno aislado para que las aplicaciones de software se ejecuten en él. Conceptualmente, los contenedores de Docker son como máquinas virtuales anidadas y se pueden usar para implementar y ejecutar fácilmente una amplia variedad de aplicaciones de software basadas en imágenes de contenedor proporcionadas en Docker Hub. El script de implementación de Cloudera para el entorno de pruebas de HDP descarga automáticamente la imagen de Docker HDP Sandbox 3.0.1 de Docker Hub y ejecuta dos contenedores Docker:

  • sandbox-hdp
  • sandbox-proxy

Requisitos previos

Para configurar este laboratorio, necesita acceso a una suscripción a Azure. Hable con el administrador de su organización para ver si puede obtener acceso a una suscripción de Azure existente. Si no tiene una suscripción de Azure, cree una cuenta gratuita antes de empezar.

Configuración del laboratorio

Configuración del plan de laboratorio

Después de tener una suscripción de Azure, puede crear un plan de laboratorio en Azure Lab Services. Para obtener más información sobre cómo crear un nuevo plan de laboratorio, consulte Inicio rápido: Configuración de recursos para crear laboratorios. También puede usar un plan de laboratorio existente.

Este laboratorio usa imágenes de Azure Marketplace de Windows 10 Pro como imagen de máquina virtual base. Primero necesitas habilitar esta imagen en tu plan de laboratorio. Esto permite a los creadores de laboratorio seleccionar la imagen como una imagen base para su laboratorio.

Siga estos pasos para habilitar estas imágenes de Azure Marketplace disponibles para los creadores de laboratorio. Seleccione una de las imágenes de Azure Marketplace de Windows 10 .

Configuración del laboratorio

Crear un laboratorio para tu plan de laboratorio. Para obtener instrucciones sobre cómo crear un laboratorio, consulte Tutorial: Configuración de un laboratorio. Use la configuración siguiente al crear el laboratorio.

Configuración del laboratorio Valor/instrucciones
Tamaño de máquina virtual Medio (virtualización anidada). Este tamaño de VM es el más adecuado para bases de datos relacionales, análisis y almacenamiento en caché en memoria. El tamaño admite la virtualización anidada.
Imagen de máquina virtual Windows 10 Pro

Nota:

Use el tamaño de máquina virtual mediano (virtualización anidada) porque el espacio aislado de HDP mediante Docker requiere Windows Hyper-V con virtualización anidada y al menos 10 GB de RAM.

Configuración de la máquina de plantilla

Para configurar la máquina de plantilla:

  1. Instalación de Docker
  2. Implementación de HDP Sandbox
  3. Uso de PowerShell y el Programador de tareas de Windows para iniciar automáticamente los contenedores de Docker

Instalación de Docker

Los pasos de esta sección se basan en las instrucciones de Cloudera para implementar con contenedores de Docker.

Para usar contenedores de Docker, primero debe instalar Docker Desktop en la VM de plantilla:

  1. Siga los pasos de la sección Requisitos previos para instalar Docker para Windows.

    Importante

    Asegúrese de que la opción Usar contenedores de Windows en lugar de contenedores de Linux se deja desactivada.

  2. Asegúrese de que los contenedores de Windows y las características de Hyper-V estén activadas.

    Active o desactive las características de Windows.

  3. Siga los pasos de la sección Memoria para Windows para configurar la configuración de memoria de Docker.

    Advertencia

    Si comprueba accidentalmente la opción Usar contenedores de Windows en lugar de contenedores de Linux al instalar Docker, no verá las opciones de configuración de memoria. Para corregir esto, puede cambiar al uso de contenedores de Linux haciendo clic en el icono de Docker en la bandeja del sistema de Windows; cuando se abra el menú Docker Desktop, seleccione Cambiar a contenedores de Linux.

Implementación de HDP Sandbox

A continuación, implemente el espacio aislado de HDP y, a continuación, acceda al espacio aislado de HDP mediante el explorador.

  1. Asegúrese de que ha instalado Git Bash como se muestra en la sección Requisitos previos de la guía. Se recomienda para completar los siguientes pasos.

  2. Con la Guía de implementación e instalación de Cloudera para Docker, complete los pasos de las secciones siguientes:

    • Implementación de HDP Sandbox
    • Verificación de HDP Sandbox

    Advertencia

    Al descargar el archivo .zip más reciente para HDP, asegúrese de no guardar el archivo .zip en una ruta de acceso de directorio que incluya espacios en blanco.

    Nota:

    Si recibe una excepción durante la implementación que indica Drive no se ha compartido, debe compartir la unidad C con Docker para que los contenedores Linux de HDP puedan acceder a los archivos locales de Windows. Para corregirlo, haga clic en el icono de Docker en la bandeja del sistema de Windows para abrir el menú Escritorio de Docker y seleccione Configuración. Cuando se abra el cuadro de diálogo Configuración de Docker, seleccione Recursos > Compartir Archivos y compruebe la unidad C. A continuación, puede repetir los pasos para implementar HDP Sandbox.

  3. Cuando los contenedores Docker para HDP Sandbox estén implementados y funcionando, puede acceder al entorno iniciando el navegador. Siga las instrucciones de Cloudera para abrir la página principal del espacio aislado e iniciar el panel de HDP.

    Nota:

    En estas instrucciones se asume que primero ha asignado la dirección IP local del entorno sandbox a sandbox-hdp.hortonworks.com en el archivo de hosts en la VM de plantilla. Si no hace esta asignación, puede acceder a la página de bienvenida de Sandbox navegando a http://localhost:8080.

Iniciar automáticamente contenedores de Docker cuando los usuarios del laboratorio inician sesión

Para proporcionar una experiencia fácil de usar para los usuarios del laboratorio, cree un script de PowerShell que:

  1. Inicia los contenedores Docker del HDP Sandbox cuando un usuario de laboratorio inicia sesión y se conecta a su VM de laboratorio.
  2. Inicie el explorador y navegue a la página principal de Sandbox.

Use el Programador de tareas de Windows para ejecutar automáticamente este script cuando un usuario de laboratorio inicia sesión en su máquina virtual. Para configurar un Programador de Tareas, siga estos pasos: Scripting en Analítica de Macrodatos.

Conclusión

En este artículo se explican los pasos necesarios para crear un laboratorio para una clase de análisis de macrodatos, La clase de análisis de big data utiliza Hortonworks Data Platform desplegado con Docker. La configuración de este tipo de clase se puede usar para clases similares de análisis de datos. Esta configuración también puede aplicarse a otros tipos de clases que usen Docker para la implementación.

Pasos siguientes

Ahora se puede publicar la imagen de plantilla en el laboratorio. Para obtener más información, vea Publicar la máquina virtual de plantilla.

Cuando configure el laboratorio, consulte los siguientes artículos: