Compartir a través de


Tutorial: Escritura en una tabla Delta almacenada en Azure Data Lake Storage Gen2

En este tutorial se muestra cómo crear un trabajo de Stream Analytics para escribir en una tabla Delta en Azure Data Lake Storage Gen2. En este tutorial, aprenderá a:

  • Implementación de un generador de eventos que envía datos de ejemplo al centro de eventos
  • Creación de un trabajo de Stream Analytics
  • Configuración de Azure Data Lake Storage Gen2 con una tabla delta
  • Ejecución del trabajo de Stream Analytics

Prerrequisitos

Antes de empezar, complete los pasos siguientes:

Creación de un trabajo de Stream Analytics

  1. Inicie sesión en Azure Portal.

  2. Seleccione Todos los servicios en el menú de la izquierda.

  3. Mueva el mouse sobre los trabajos de Stream Analytics en la sección Analytics y seleccione + (más).

    Captura de pantalla que muestra la selección de trabajos de Stream Analytics en la página Todos los servicios.

  4. Haga clic en Crear un recurso en la esquina superior izquierda de Azure Portal.

  5. Seleccione Analytics>Stream Analytics job en la lista de resultados.

  6. En la página Nuevo trabajo de Stream Analytics , siga estos pasos:

    1. En Suscripción, seleccione su suscripción de Azure.
    2. En Grupo de recursos, seleccione el mismo recurso que usó anteriormente en la implementación de TollApp.
    3. En Nombre, escriba un nombre para el trabajo. El nombre del trabajo de Stream Analytics solo puede contener caracteres alfanuméricos, guiones y caracteres de subrayado, y debe tener entre 3 y 63 caracteres.
    4. En Entorno de hospedaje, confirme que la nube está seleccionada.
    5. En Unidades de flujo, seleccione 1. Las unidades de streaming representan los recursos informáticos necesarios para ejecutar un trabajo. Para obtener información sobre el escalado de unidades de streaming, consulte el artículo descripción y ajuste de las unidades de streaming .

    Captura de pantalla que muestra la página Crear trabajo de Stream Analytics.

  7. En la parte inferior de la página, seleccione Revisar y crear.

  8. En la página Revisar y crear , revise la configuración y seleccione Crear para crear una página de Stream Analytics.

  9. En la página de implementación, seleccione Ir al recurso para ir a la página de trabajo de Stream Analytics .

Configuración de la entrada del trabajo

El siguiente paso consiste en definir un origen de entrada para que el trabajo lea los datos mediante el centro de eventos creado en la implementación de TollApp.

  1. Busque el trabajo de Stream Analytics creado en la sección anterior.

  2. En la sección Topología de trabajo del trabajo de Stream Analytics, seleccione Entradas.

  3. Seleccione + Agregar entrada y centro de eventos.

    Captura de pantalla que muestra la página Entradas.

  4. Rellene el formulario de entrada con los siguientes valores creados a través de la plantilla de Azure TollApp:

    1. En Alias de entrada, escriba entrystream.

    2. Elija Seleccionar centro de eventos en las suscripciones.

    3. En Suscripción, seleccione su suscripción de Azure.

    4. En espacio de nombres del Event Hub, seleccione el espacio de nombres del Event Hub que creó en la sección anterior.

    5. Use las opciones predeterminadas en la configuración restante y seleccione Guardar.

      Captura de pantalla que muestra la selección del centro de eventos de entrada.

Configuración de la salida del trabajo

El paso siguiente consiste en definir un receptor de salida en el que el trabajo pueda escribir los datos. En este tutorial, escribirá la salida en una tabla Delta en Azure Data Lake Storage Gen2.

  1. En la sección Topología de trabajo del trabajo de Stream Analytics, seleccione la opción Salidas .

  2. Seleccione +Agregar salida>Blob storage/ADLS Gen2.

    Captura de pantalla que muestra la página Salidas.

  3. Rellene el formulario de salida con los detalles siguientes y seleccione Guardar:

    1. En Alias de salida, escriba DeltaOutput.

    2. Elija Seleccionar Blob Storage/ADLS Gen2 en sus suscripciones.

    3. En Suscripción, seleccione su suscripción de Azure.

    4. En Cuenta de almacenamiento, elija la cuenta de ADLS Gen2 (la que comienza por tollapp) que creó.

    5. En contenedor, seleccione Crear nuevo y proporcione un nombre de contenedor único.

    6. En Formato de serialización de eventos, seleccione Delta Lake. Aunque Delta Lake aparece como una de las opciones aquí, no es un formato de datos. Delta Lake utiliza archivos Parquet versionados para almacenar tus datos. Para más información sobre Delta Lake.

    7. Como ruta de acceso de la tabla delta, escriba carpeta del tutorial/tabla delta.

    8. Use las opciones predeterminadas en la configuración restante y seleccione Guardar.

      Captura de pantalla que muestra la configuración de la salida.

Creación de consultas

En este momento, tiene un trabajo de Stream Analytics configurado para leer un flujo de datos entrantes. El siguiente paso es crear una consulta que analice los datos en tiempo real. Las consultas usan un lenguaje similar a SQL que tiene algunas extensiones específicas de Stream Analytics.

  1. Ahora, seleccione Consulta en Topología de trabajo en el menú de la izquierda.

  2. Escriba la siguiente consulta en la ventana de consulta. En este ejemplo, la consulta lee los datos de Event Hubs y copia los valores seleccionados en una tabla Delta de ADLS Gen2.

     SELECT State, CarModel.Make, TollAmount
     INTO DeltaOutput
     FROM EntryStream TIMESTAMP BY EntryTime
    
  3. Seleccione Guardar consulta en la barra de herramientas.

    Captura de pantalla que muestra la consulta del trabajo.

Inicio del trabajo de Stream Analytics y consulta de la salida

  1. Vuelva a la página de información general del trabajo en Azure Portal y seleccione Iniciar.

    Captura de pantalla que muestra la selección del botón Iniciar trabajo en la página Información general.

  2. En la página Iniciar trabajo , confirme que Ahora está seleccionado para Hora de inicio de salida del trabajo y, a continuación, seleccione Iniciar en la parte inferior de la página.

    Captura de pantalla que muestra la selección de la página Iniciar trabajo.

  3. Después de unos minutos, en el portal, busque la cuenta de almacenamiento y el contenedor que ha configurado como salida para el trabajo. Ahora puede ver la tabla delta en la carpeta especificada en el contenedor. El trabajo tarda unos minutos en iniciarse por primera vez, una vez iniciado, seguirá ejecutándose a medida que llegan los datos.

    Captura de pantalla que muestra los archivos de datos de salida en el contenedor.

Limpieza de recursos

Cuando ya no sea necesario, elimine el grupo de recursos, el trabajo de Stream Analytics y todos los recursos relacionados. Al eliminar el trabajo, se evita la facturación de las unidades de streaming consumidas por el trabajo. Si planea usar la tarea en el futuro, puede detenerla y reiniciarla más adelante cuando lo necesite. Si no va a seguir usando este trabajo, elimine todos los recursos creados por este tutorial mediante los pasos siguientes:

  1. En el menú izquierdo de Azure Portal, seleccione Grupos de recursos y, a continuación, seleccione el nombre del recurso que creó.
  2. En la página del grupo de recursos, seleccione Eliminar, escriba el nombre del recurso que desea eliminar en el cuadro de texto y, a continuación, seleccione Eliminar.

Pasos siguientes

En este tutorial, ha creado un trabajo sencillo de Stream Analytics, ha filtrado los datos entrantes y ha escrito resultados en una tabla Delta en una cuenta de ADLS Gen2. Para más información sobre los trabajos de Stream Analytics: