Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Los conjuntos de recursos de Databricks se pueden crear y modificar directamente en el área de trabajo.
Para conocer los requisitos para utilizar paquetes en el área de trabajo, consulte Paquetes de Recursos de Databricks en los requisitos del área de trabajo.
Para obtener más información sobre las agrupaciones, consulte ¿Qué son los conjuntos de recursos de Databricks?.
Crear un paquete
Para crear un paquete en el espacio de trabajo de Databricks:
Diríjase a la carpeta git donde desea crear su paquete.
Haga clic en el botón Crear y, a continuación, haga clic en Agrupación de recursos. Como alternativa, haga clic con el botón derecho en la carpeta Git o en su kebab asociado en el árbol del área de trabajo y haga clic en Crear>agrupación de recursos:
En el cuadro de diálogo Crear un lote de recursos , asigne un nombre al conjunto de recursos, como un paquete totalmente impresionante. El nombre del lote solo puede contener letras, números, guiones y caracteres de subrayado.
En Plantilla, elija si desea crear un paquete vacío, un lote que ejecuta un cuaderno de Python de ejemplo o un lote que ejecuta SQL. Si tiene habilitado el Editor de canalizaciones de Lakeflow , también verá una opción para crear un proyecto de canalización ETL.
Algunas plantillas requieren configuración adicional. Haga clic en Siguiente para terminar de configurar el proyecto.
Template Opciones de configuración Canalizaciones declarativas de Spark de Lakeflow - Catálogo predeterminado que se va a usar para los datos de canalización
- Usar el esquema personal (recomendado) para cada usuario que colabore en este paquete.
- Lenguaje inicial para los archivos de código del pipeline
Python predeterminado - Incluir un cuaderno de ejemplo
- Incluir una canalización de ejemplo
- Incluir un paquete de Python de ejemplo
- Uso del proceso sin servidor
SQL predeterminado - Ruta de acceso de SQL Warehouse
- Catálogo inicial
- Uso del esquema personal
- Esquema inicial durante el desarrollo
Haga clic en Crear e implementar.
Esto crea una agrupación inicial en la carpeta Git, que incluye los archivos de la plantilla de proyecto que seleccionó, un .gitignore archivo de configuración de Git y el archivo de conjuntos de recursos de Databricks databricks.yml necesarios. El databricks.yml archivo contiene la configuración principal de la agrupación. Para obtener más información, consulte Configuración del conjunto de recursos de Databricks.
Los cambios realizados en los archivos de la agrupación se pueden sincronizar con el repositorio remoto asociado a la carpeta Git. Una carpeta de Git puede contener muchos paquetes.
Agregar nuevos archivos a una agrupación
Un paquete contiene el databricks.yml archivo que define configuraciones de implementación y área de trabajo, archivos de origen, como cuadernos, archivos de Python y archivos de prueba, y definiciones y opciones de configuración para recursos de Databricks, como trabajos de Lakeflow y canalizaciones declarativas de Spark de Lakeflow. De forma similar a cualquier carpeta del área de trabajo, puede agregar nuevos archivos a la agrupación.
Sugerencia
Para abrir una nueva pestaña en la vista de agrupación que le permite modificar los archivos de agrupación, vaya a la carpeta bundle del área de trabajo y, a continuación, haga clic en Abrir en el editor a la derecha del nombre del lote.
Adición de archivos de código fuente
Para agregar nuevos cuadernos u otros archivos a una agrupación en la interfaz de usuario del área de trabajo, vaya a la carpeta bundle y, a continuación, haga lo siguiente:
- Haga clic en Crear en la esquina superior derecha y elija uno de los siguientes tipos de archivo para agregar a la agrupación: Cuaderno, Archivo, Consulta, Panel.
- Como alternativa, haga clic en el kebab a la izquierda de Compartir e importe un archivo.
Nota:
Para que el archivo forme parte de la implementación del lote, después de agregar un archivo a la carpeta bundle, debe agregarlo a la databricks.yml configuración del lote o crear un archivo de definición de canalización o trabajo que lo incluya. Consulte Agregar un recurso existente a una agrupación.
Adición de una definición de trabajo
Los paquetes contienen definiciones de recursos como trabajos y canalizaciones para incluir en una implementación. Estas definiciones se especifican en YAML o Python, y puede crear y editar estas configuraciones directamente en la interfaz de usuario.
Para crear un archivo de configuración de agrupación que defina un trabajo:
Vaya a la carpeta bundle en el área de trabajo donde desea definir un nuevo trabajo.
Sugerencia
Si ha abierto previamente la agrupación en el editor del área de trabajo, puede usar la lista de contextos de creación del explorador del área de trabajo para navegar a la carpeta bundle. Consulte Contextos de creación.
A la derecha del nombre del lote, haga clic en Abrir en el editor para ir a la vista del editor del lote.
Haga clic en el icono de implementación del paquete para cambiar al panel Implementaciones .
En la sección Agrupación de recursos , haga clic en Agregar y, a continuación, en Nueva definición de trabajo.
Escriba un nombre para el trabajo en el campo Nombre del trabajo del cuadro de diálogo Crear definición de trabajo . Haga clic en Crear.
Agregue YAML al archivo de definición de trabajo que se creó. El siguiente ejemplo de YAML define un trabajo que ejecuta un bloque de notas.
resources: jobs: run_notebook: name: run-notebook queue: enabled: true tasks: - task_key: my-notebook-task notebook_task: notebook_path: ../helloworld.ipynb
Para más información sobre cómo definir un trabajo en YAML, consulte trabajo. Para ver la sintaxis de YAML para otros tipos de tareas de trabajo admitidos, consulte Incorporación de tareas a trabajos en Conjuntos de recursos de Databricks.
Adición de una canalización
Para agregar una canalización a la agrupación:
Vaya a la carpeta bundle en el área de trabajo donde desea definir una nueva canalización.
Sugerencia
Si ha abierto previamente la agrupación en el editor del área de trabajo, puede usar el menú contextuales de creación del explorador del área de trabajo para ir a la carpeta de agrupación. Consulte Contextos de creación.
A la derecha del nombre del lote, haga clic en Abrir en el editor para ir a la vista del editor del lote.
Haga clic en el icono de implementación del paquete para cambiar al panel Implementaciones .
En la sección Agrupación de recursos , haga clic en Agregar y, a continuación, en Nueva definición de canalización o Nueva canalización ETL si ha habilitado el Editor de canalizaciones de Lakeflow en el área de trabajo. La experiencia de creación de canalizaciones difiere para estas dos opciones.
Creación de una definición de canalización
Si seleccionó Nueva definición de canalización en el menú de creación de recursos de agrupación:
- Escriba un nombre para la canalización en el campo Nombre de canalización del cuadro de diálogo Agregar canalización a la agrupación existente .
- Haga clic en Agregar e implementar.
Para una canalización con el nombre test_pipeline que ejecuta un cuaderno, el archivo YAML que se permite se crea en un archivo test_pipeline.pipeline.yml:
resources:
pipelines:
test_pipeline:
name: test_pipeline
libraries:
- notebook:
path: ../test_pipeline.ipynb
serverless: true
catalog: main
target: test_pipeline_${bundle.environment}
Puede modificar la configuración para ejecutar un cuaderno existente. Para más información sobre cómo definir una canalización en YAML, consulte canalización.
Creación de una canalización de ETL
Si seleccionó Nueva canalización ETL en el menú de creación de recursos del paquete:
Escriba un nombre para la canalización en el campo Nombre del cuadro de diálogo Agregar canalización a la agrupación existente . El nombre debe ser único dentro del área de trabajo.
En el campo Usar esquema personal , seleccione Sí para escenarios de desarrollo y No para escenarios de producción.
Seleccione un catálogo predeterminado y un esquema predeterminado para la canalización.
Elija un lenguaje para el código fuente de la canalización.
Haga clic en Agregar e implementar.
Revise los detalles del cuadro de diálogo de confirmación Desplegar en desarrollo y, a continuación, haga clic en Desplegar.
Se crea una canalización ETL con tablas de exploración y transformación de ejemplo.
Para una canalización con el nombre rad_pipeline, se crea el siguiente CÓDIGO YAML en un archivo rad_pipeline.pipeline.yml. Esta canalización está configurada para ejecutarse en un proceso sin servidor.
resources:
pipelines:
rad_pipeline:
name: rad_pipeline
libraries:
- glob:
include: transformations/**
serverless: true
catalog: main
schema: ${workspace.current_user.short_name}
root_path: .
Agregar un recurso existente a una agrupación
Puede agregar recursos existentes, como canalizaciones, y también activos como cuadernos y otros archivos de origen, a su paquete. Sin embargo, debe definirlos en la configuración del paquete para incluirlos en el despliegue del paquete. En el siguiente ejemplo, se agrega una canalización existente a un paquete.
Suponiendo que tiene una canalización denominada taxifilter que ejecuta el taxifilter.ipynb notebook en tu área de trabajo compartida:
En la barra lateral del área de trabajo de Azure Databricks, haga clic en Trabajos y canalizaciones.
Opcionalmente, seleccione los filtros Canalizaciones y Propiedad de mí .
Seleccione la canalización existente
taxifilter.En la página de canalización, haga clic en el kebab situado a la izquierda del botón Modo de implementación de desarrollo . A continuación, haga clic en Ver configuración YAML.
Haga clic en el icono de copia para copiar la configuración de agrupación de la canalización.
Navega a tu paquete en Área de trabajo.
Haga clic en el icono de implementación del paquete para cambiar al panel Implementaciones .
En la sección Agrupación de recursos , haga clic en Agregar y, a continuación, en Nueva definición de canalización.
Nota:
Si en su lugar ve un elemento de menú Nueva canalización de ETL , tendrá habilitado el Editor de canalizaciones de Lakeflow . Para agregar una canalización ETL a una agrupación, consulte Creación de una canalización controlada por código fuente.
Escriba
taxifilteren el campo Nombre de canalización del cuadro de diálogo Agregar canalización a la agrupación existente . Haga clic en Crear.Pegue la configuración de la canalización existente en el archivo. Esta canalización de ejemplo se define para ejecutar el
taxifiltercuaderno:resources: pipelines: taxifilter: name: taxifilter catalog: main libraries: - notebook: path: /Workspace/Shared/taxifilter.ipynb target: taxifilter_${bundle.environment}
Ahora puede implementar la agrupación y, a continuación, ejecutar el recurso de canalización a través de la interfaz de usuario.