Primeros pasos en Azure Databricks

Completado

Para usar Azure Databricks, debes crear un área de trabajo de Azure Databricks en la suscripción de Azure. Un área de trabajo es una implementación de Azure Databricks en una cuenta de servicio en la nube. Proporciona un entorno unificado para trabajar con recursos de Azure Databricks para un conjunto especificado de usuarios.

Puede crear un área de trabajo de Azure Databricks mediante:

  • Uso de la interfaz de usuario de Azure Portal.
  • Uso de una plantilla de Azure Resource Manager (ARM), Bicep o Terraform.
  • Usar el cmdlet New-AzDatabricksWorkspace de Azure PowerShell.
  • Usar el comando de la interfaz de línea de comandos (CLI) de Azure az databricks workspace create.

Al crear un área de trabajo, debe especificar lo siguiente:

  • Un nombre de área de trabajo.
  • Seleccione una región disponible. Para ver las regiones disponibles, consulte Servicios de Azure disponibles por región.
  • Un plan de tarifa:
    • Estándar : funcionalidades principales de Apache Spark con la integración de Microsoft Entra ID.
    • Premium : controles de acceso basados en rol y otras características de nivel empresarial.
    • Prueba : una evaluación gratuita de 14 días de un área de trabajo de nivel Premium
  • Nombre del grupo de recursos administrado (opcional): un grupo de recursos creado automáticamente donde Azure aprovisiona y administra los recursos de infraestructura necesarios para el área de trabajo de Databricks.

Captura de pantalla de Azure Databricks en Azure Portal.

Si decide crear una implementación de Azure Databricks mediante la CLI de Azure, este sería el comando az databricks workspace para recordar:

az databricks workspace create
    --resource-group myresourcegroup \
    --name mydatabricksws  \
    --location westus2  \
    --sku standard

El cmdlet de PowerShell New-AzDatabricksWorkspace equivalente:

New-AzDatabricksWorkspace -Name mydatabricksws -ResourceGroupName myresourcegroup -Location westus2 -ManagedResourceGroupName databricks-group -Sku standard

Después de aprovisionar un área de trabajo de Azure Databricks, puede usar la interfaz de usuario del área de trabajo para trabajar con datos y recursos de proceso. La interfaz de usuario del área de trabajo es una interfaz de usuario basada en web donde puede crear y administrar recursos del área de trabajo, como clústeres de Spark, y usar cuadernos y consultas para trabajar con datos en archivos y tablas.

Captura de pantalla de la interfaz de usuario del área de trabajo de Azure Databricks.

La página principal proporciona accesos directos a tareas comunes y objetos de área de trabajo que le ayudarán a empezar. Puede importar datos, crear un cuaderno, crear una consulta y configurar un experimento de AutoML.

La barra lateral muestra categorías comunes de Databricks (Área de trabajo, Recientes, Catálogo, Trabajos y canalizaciones, Proceso, Marketplace). A continuación, se desglosa por áreas de producto:

  • SQL: Editor de SQL, Consultas, Paneles, Genie, Alertas, Historial de consultas, Almacenes de SQL
  • Ingeniería de datos: ejecuciones de trabajos, ingesta de datos
  • Machine Learning: Entorno de prueba, Experimentos, Características, Modelos, Servicio de implementación

Seleccione + Nuevo para:

  • Cree objetos de área de trabajo como cuadernos, consultas, repositorios, tableros de control, alertas, trabajos, canalizaciones, experimentos, modelos y endpoints de servicio.
  • Cree recursos de proceso como clústeres, almacenes de SQL y puntos de conexión de ML.

Use la barra superior para buscar objetos de área de trabajo, como cuadernos, consultas, paneles, alertas, archivos, carpetas, bibliotecas, tablas registradas en el catálogo de Unity, trabajos y repositorios en un solo lugar. También puede acceder a los objetos vistos recientemente en la barra de búsqueda.

El área de trabajo está disponible en varios idiomas. Para cambiar el idioma del área de trabajo, seleccione el nombre de usuario en la barra de navegación superior, seleccione Configuración y vaya a la pestaña Preferencias .

Obtener ayuda de Databricks Assistant

Databricks Assistant es un programador de pares con tecnología de inteligencia artificial y una herramienta de soporte técnico que le ayuda a trabajar de forma más eficaz en Databricks mediante la generación, explicación y corrección de código o consultas directamente en cuadernos, paneles y archivos.

Captura de pantalla del Asistente de Azure Databricks.

Puede ayudar con una amplia gama de tareas, incluida la identificación y corrección de errores, la creación de visualizaciones de datos, el diagnóstico de problemas de trabajo y el filtrado o el análisis de datos mediante avisos de lenguaje natural. El Asistente puede exponer instrucciones importantes de la documentación de Azure Databricks.

Mediante el uso de metadatos del catálogo de Unity, personaliza sus respuestas en función de los recursos de datos de la organización(tablas, columnas y descripciones), lo que facilita la exploración y el trabajo con los datos.