Compartir a través de


Implementación de Azure Databricks en su red virtual de Azure (inserción en red virtual)

Implemente Azure Databricks en la red virtual de Azure para habilitar la personalización de red, proteger la conectividad con los servicios de Azure y los orígenes de datos locales y las funcionalidades de inspección del tráfico.

¿Por qué usar la inserción de red virtual?

La inyección de red virtual implementa los recursos del plano de proceso clásico de Azure Databricks en su propia red virtual, lo que permite lo siguiente:

  • Conectividad privada a servicios de Azure mediante puntos de conexión de servicio o puntos de conexión privados
  • Acceso local a través de rutas definidas por el usuario
  • Inspección del tráfico con aplicaciones virtuales de red
  • Configuración de DNS personalizada
  • Control de tráfico de salida con reglas de NSG adicionales
  • Intervalos CIDR flexibles (VNet: /16 a /24, subredes: hasta /26)

Requisitos de permisos

Permisos de Azure: el creador del área de trabajo debe tener el rol de colaborador de red en la red virtual o un rol personalizado con permisos de Microsoft.Network/virtualNetworks/subnets/join/action y Microsoft.Network/virtualNetworks/subnets/write.

Configuración de red virtual

  1. Debe configurar una red virtual para implementar el área de trabajo de Azure Databricks. Puede usar una red virtual existente o crear una nueva. La red virtual debe cumplir los siguientes requisitos:
    • Región: la red virtual debe residir en la misma región que el área de trabajo de Azure Databricks.
    • Suscripción: la red virtual debe estar en la misma suscripción que el área de trabajo de Azure Databricks.
    • Espacio de direcciones: un bloque CIDR entre /16 y /24 para la red virtual. Para obtener instrucciones sobre el número máximo de nodos de clúster en función del tamaño de la red virtual, consulte Guía del espacio de direcciones.
    • Subredes: la red virtual debe incluir dos subredes dedicadas al área de trabajo de Azure Databricks:
      • Una subred de contenedor (a veces denominada subred privada)
      • Una subred de host (a veces denominada subred pública)
      • Cada subred debe usar un bloque CIDR que sea al menos /26. Databricks no recomienda una subred menor que /26.
      • No puede compartir subredes entre áreas de trabajo ni implementar otros recursos de Azure en las subredes que usa el área de trabajo de Azure Databricks.
      • Se recomienda que los tamaños de las subredes coincidan.
    • Conectividad saliente para el tráfico de salida: Databricks recomienda usar una puerta de enlace nat de Azure en ambas subredes para direcciones IP de salida estables. Después del 31 de marzo de 2026, las nuevas redes virtuales requieren métodos de conectividad de salida explícitos. Consulte Conectividad segura del clúster.
    • Reglas de grupo de seguridad de red: consulte Reglas de grupo de seguridad de red.

Nota

Al implementar un área de trabajo mediante conectividad segura de clústeres, tanto la subred de contenedor como la subred del host usan direcciones IP privadas.

Guía del espacio de direcciones

Un área de trabajo de Azure Databricks requiere dos subredes en la red virtual: una subred de contenedor y una subred de host. Azure reserva cinco direcciones IP en cada subred. Azure Databricks requiere dos direcciones IP para cada nodo de clúster: una dirección IP para el host en la subred del host y una dirección IP para el contenedor en la subred del contenedor.

Tenga en cuenta lo siguiente al planear el espacio de direcciones:

  • Es posible que quiera crear varias áreas de trabajo dentro de una sola red virtual. Dado que no puede compartir subredes entre áreas de trabajo, planee subredes que no usen el espacio total de direcciones de la red virtual.
  • Asigne espacio de direcciones para dos nuevas subredes que se encuentran dentro del espacio de direcciones de la red virtual y no superpongan el espacio de direcciones de las subredes actuales o futuras de esa red virtual.

Un área de trabajo con una red virtual más pequeña puede quedarse sin direcciones IP (espacio de red) más rápidamente que un área de trabajo con una red virtual de mayor tamaño. Use un bloque CIDR entre /16 y /24 para la red virtual y un bloque CIDR hasta /26 para las dos subredes (la subred de contenedor y la subred de host). Puede crear un bloque CIDR de hasta /28 para sus subredes, pero Azure Databricks no recomienda una subred más pequeña que /26.

Paso 1: Crear un área de trabajo

Cree un área de trabajo en Azure Portal e impleméntela en la red virtual.

  1. En Azure Portal, seleccione + Crear un recurso > Analytics > de Azure Databricks o busque Azure Databricks.

  2. En la pestaña Redes , seleccione la red virtual.

    Importante

    Si la red virtual no aparece, compruebe que el área de trabajo y la red virtual están en la misma región de Azure.

  3. Configure subredes con intervalos CIDR de hasta /26 (máximo 80 caracteres para nombres):

    • Subredes existentes: escriba nombres de subred exactos y intervalos IP coincidentes.
    • Nuevas subredes: escriba nuevos nombres e intervalos IP en el espacio de direcciones de la red virtual.

    Nota

    Los intervalos CIDR de subred no se pueden cambiar después de la implementación. Azure Databricks configura automáticamente las reglas de NSG y la delegación de subred en Microsoft.Databricks/workspaces.

  4. Haga clic en Crear para implementar el área de trabajo.

Paso 2: Comprobación de la implementación del área de trabajo

  1. Vaya a Azure Portal y vaya al recurso del área de trabajo de Azure Databricks.

  2. En la página Información general , compruebe lo siguiente:

    • El área de trabajo está en un estado correcto (no se ha producido un error).
    • Se muestran el grupo de recursos y el grupo de recursos administrados.
    • El emparejamiento de redes virtuales está deshabilitado (esto se espera para la inyección de VNet).

El grupo de recursos administrado no es modificable y no se puede usar para crear máquinas virtuales. Cree máquinas virtuales en el grupo de recursos que administra.

Paso 3: Comprobación de la configuración del grupo de seguridad de red

  1. En el portal de Azure, vaya a su VNet.

  2. Haga clic en Subredes en Configuración.

  3. Compruebe que la subred del contenedor y la subred del host tienen:

    • Un grupo de seguridad de red asociado
    • Delegación a Microsoft.Databricks/workspaces
  4. Haga clic en el grupo de seguridad de red y compruebe que están configuradas las reglas de entrada y salida necesarias. Para conocer las reglas esperadas, consulte Referencia de reglas de grupo de seguridad de red.

Paso 4: Creación de un clúster

Después de crear su área de trabajo, cree un clúster de proceso clásico para verificar que la inserción de VNet funciona correctamente.

  1. Vaya al área de trabajo de Azure Databricks y haga clic en Iniciar área de trabajo en la página Información general .

  2. Haga clic en Icono ProcesoProceso en la barra lateral.

  3. En la página de proceso, haga clic en Crear clúster.

  4. Escriba un nombre de clúster, deje los valores restantes en su estado predeterminado y haga clic en Crear clúster.

Una vez que se ejecuta el clúster, el grupo de recursos administrado contiene nuevas máquinas virtuales, discos, direcciones IP e interfaces de red. Se crea una interfaz de red en cada una de las subredes públicas y privadas con direcciones IP.

Paso 5: Comprobación de la configuración de red del clúster

  1. En el área de trabajo de Azure Databricks, vaya al grupo de recursos administrado en Azure Portal.

  2. Compruebe que existen los siguientes recursos:

    • Máquinas virtuales para los nodos del clúster
    • Discos conectados a las máquinas virtuales
    • Direcciones IP para los nodos del clúster
    • Interfaces de red en las subredes públicas y privadas
  3. En el área de trabajo de Azure Databricks, haga clic en el clúster que creó.

  4. Vaya a la interfaz de usuario de Spark y haga clic en la pestaña Ejecutores .

  5. Compruebe que las direcciones del controlador y los ejecutores están en el intervalo de subredes privadas. Por ejemplo, si la subred privada es 10.179.0.0/18, es posible que el controlador sea 10.179.0.6 y los ejecutores sean 10.179.0.4 y 10.179.0.5. Las direcciones IP pueden ser diferentes.

Direcciones IP de salida estables

En el caso de las áreas de trabajo con conectividad segura de clústeres e inyección de red virtual, Databricks recomienda configurar una dirección IP pública de salida estable. Las direcciones IP estables habilitan listas de permitidos externas para servicios como Salesforce y listas de acceso IP.

Advertencia

Después del 31 de marzo de 2026, las nuevas redes virtuales de Azure tienen como valor predeterminado configuraciones privadas sin acceso saliente a Internet. Las nuevas áreas de trabajo de Azure Databricks requieren métodos de conectividad de salida explícitos, como una puerta de enlace NAT. Las áreas de trabajo existentes no se ven afectadas. Consulte el anuncio de Microsoft.

Para configurar una dirección IP de salida estable, consulte Egreso con inyección de VNet.

Reglas del grupo de seguridad de red

Azure Databricks aprovisiona y gestiona automáticamente las reglas de NSG que se enumeran a continuación a través de la delegación de subred al servicio Microsoft.Databricks/workspaces. Estas reglas son necesarias para la operación del área de trabajo. No modifique ni elimine estas reglas.

Nota

Algunas reglas usan VirtualNetwork como origen y destino. Las directivas de red internas impiden la comunicación entre clústeres, incluidas las áreas de trabajo de la misma red virtual.

Databricks recomienda usar un NSG único para cada área de trabajo.

Importante

Agregue reglas de denegación a los NSG conectados a otras redes y subredes en las mismas o en redes virtuales emparejadas. Aplique reglas de denegación para las conexiones entrantes y salientes para limitar el tráfico hacia y desde los recursos de proceso de Azure Databricks. Permita solo el acceso mínimo necesario para que los clústeres alcancen los recursos necesarios.

Reglas de grupo de seguridad de red para áreas de trabajo

En esta tabla se enumeran las reglas de grupo de seguridad de red para las áreas de trabajo e incluye dos reglas de grupo de seguridad de entrada que solo se agregan si la conectividad segura del clúster (SCC) está deshabilitada.

Dirección Protocolo Origen Puerto de origen Destino Puerto de destino Utilizado
Entrante Cualquiera VirtualNetwork Cualquiera VirtualNetwork Cualquiera Predeterminado
Entrante TCP AzureDatabricks (etiqueta de servicio)
Solo si SCC está deshabilitada
Cualquiera VirtualNetwork 22 Dirección IP pública
Entrante TCP AzureDatabricks (etiqueta de servicio)
Solo si SCC está deshabilitada
Cualquiera VirtualNetwork 5557 Dirección IP pública
Salida TCP VirtualNetwork Cualquiera AzureDatabricks (etiqueta de servicio) 443, 3306, 8443-8451 Predeterminado
Salida TCP VirtualNetwork Cualquiera SQL 3306 Predeterminado
Salida TCP VirtualNetwork Cualquiera Almacenamiento 443 Predeterminado
Salida Cualquiera VirtualNetwork Cualquiera VirtualNetwork Cualquiera Predeterminado
Salida TCP VirtualNetwork Cualquiera Centro de eventos 9093 Predeterminado

Nota

Si restringe las reglas de salida, Databricks recomienda abrir los puertos 111 y 2049 para habilitar determinadas instalaciones de biblioteca.

Importante

Azure Databricks es un servicio propio de Microsoft Azure que se implementa en la infraestructura global de la nube pública de Azure. Todas las comunicaciones entre los componentes del servicio, incluidas aquellas entre las direcciones IP públicas del plano de control y el plano de proceso del cliente, permanecen dentro de la red troncal de Microsoft Azure. Consulte también Red global de Microsoft.

Expansión de la capacidad de red virtual

Si la red virtual del área de trabajo no tiene capacidad suficiente para los nodos de clúster activos, tiene dos opciones:

  • Actualización de la configuración de red virtual: esta característica está en versión preliminar pública. Consulte Actualización de la configuración de red del área de trabajo.
  • Expanda el intervalo CIDR actual: póngase en contacto con el equipo de la cuenta de Azure Databricks para solicitar un aumento en el intervalo CIDR de subred del área de trabajo.