Compartir a través de


Confiabilidad en Azure Key Vault

Azure Key Vault es un servicio en la nube que proporciona un almacén seguro para secretos, como claves, contraseñas, certificados y otra información confidencial. Key Vault proporciona una variedad de características de confiabilidad integradas para ayudar a garantizar que los secretos permanezcan disponibles.

Cuando se usa Azure, la confiabilidad es una responsabilidad compartida. Microsoft proporciona una variedad de funcionalidades para admitir resistencia y recuperación. Es responsable de comprender cómo funcionan esas funcionalidades dentro de todos los servicios que usa y de seleccionar las funcionalidades que necesita para cumplir los objetivos empresariales y los objetivos de tiempo de actividad.

En este artículo se describe la resistencia de Key Vault a una variedad de posibles interrupciones y problemas, incluidos errores transitorios, interrupciones de zona de disponibilidad y interrupciones de región. También se describe cómo se pueden usar copias de seguridad para recuperarse de otros tipos de problemas, características de recuperación para evitar la eliminación accidental y se resalta cierta información clave sobre el acuerdo de nivel de servicio (SLA) de Key Vault.

Recomendaciones de implementación de producción para la confiabilidad

En el caso de las cargas de trabajo de producción, se recomienda que usted:

  • Use almacenes de claves de nivel Estándar o Premium.
  • Active el borrado suave y la protección contra purga para evitar la eliminación accidental o malintencionada.
  • Para cargas de trabajo críticas, considere la posibilidad de implementar estrategias de varias regiones que se describen en esta guía.

Introducción a la arquitectura de confiabilidad

Para garantizar una alta durabilidad y disponibilidad de las claves, los secretos y los certificados si se produce un error de hardware o una interrupción de la red, Key Vault proporciona varias capas de redundancia para mantener la disponibilidad durante los siguientes eventos:

  • Errores de hardware
  • Interrupciones de red
  • Desastres localizados
  • Actividades de mantenimiento

De forma predeterminada, Key Vault logra redundancia mediante la replicación del almacén de claves y su contenido dentro de la región.

Si la región tiene una región emparejada y esa región emparejada está en la misma geografía que la región primaria, el contenido también se replica en la región emparejada. Este enfoque garantiza una alta durabilidad de las claves y secretos, que protege frente a errores de hardware, interrupciones de red o desastres localizados.

Resistencia a errores transitorios

Los errores transitorios son errores breves e intermitentes en los componentes. Se producen con frecuencia en un entorno distribuido como la nube y son una parte normal de las operaciones. Los errores transitorios se corrigen después de un breve período de tiempo. Es importante que las aplicaciones puedan controlar errores transitorios, normalmente mediante el reintento de solicitudes afectadas.

Todas las aplicaciones hospedadas en la nube deben seguir las instrucciones de control de errores transitorios de Azure cuando se comunican con cualquier API, bases de datos y otros componentes hospedados en la nube. Para obtener más información, consulte Recomendaciones para controlar errores transitorios.

Para controlar los errores transitorios que puedan producirse, las aplicaciones cliente deben implementar lógica de reintento cuando interactúan con Key Vault. Puede usar los siguientes procedimientos recomendados:

  • Use los SDK de Azure, que normalmente incluyen mecanismos de reintento integrados.

  • Implemente directivas de reintento de retroceso exponencial si los clientes se conectan directamente a Key Vault.

  • Almacene en caché los secretos en memoria cuando sea posible para reducir las solicitudes directas a Key Vault.

  • Supervise si hay errores de limitación porque superar los límites del servicio de Key Vault provoca la limitación.

Si usa Key Vault en escenarios de alto rendimiento, considere la posibilidad de distribuir las operaciones entre varios almacenes de claves para evitar límites. Tenga en cuenta las instrucciones específicas de Key Vault para los escenarios siguientes:

  • Un escenario de alto rendimiento es aquel que se aproxima o supera los límites de servicio para las operaciones de Key Vault, como 200 operaciones por segundo para las claves protegidas por software.

  • Para cargas de trabajo de alto rendimiento, divida el tráfico de Key Vault entre varios almacenes y regiones diferentes.

  • Un límite aplicado a toda la suscripción para todos los tipos de transacciones es cinco veces el límite individual de la bóveda de claves.

  • Use un almacén independiente para cada dominio de seguridad o disponibilidad. Por ejemplo, si tiene cinco aplicaciones en dos regiones, considere la posibilidad de usar 10 almacenes.

  • Para las operaciones de clave pública, como el cifrado, el ajuste y la comprobación, realice estas operaciones localmente almacenando en caché el material de clave pública.

Para obtener más información, consulte Guía de limitación de Key Vault.

Resistencia a errores de zona de disponibilidad

Las zonas de disponibilidad son grupos físicamente independientes de centros de datos dentro de una región de Azure. Cuando una zona falla, los servicios pueden transferirse a una de las zonas restantes.

Key Vault proporciona automáticamente redundancia de zona en regiones que admiten zonas de disponibilidad. Esta redundancia proporciona alta disponibilidad dentro de una región sin necesidad de ninguna configuración específica.

Cuando una zona de disponibilidad deja de estar disponible, Key Vault redirige automáticamente las solicitudes a otras zonas de disponibilidad correctas para garantizar la alta disponibilidad.

Soporte para regiones

Key Vault habilita la redundancia de zona de forma predeterminada en todas las regiones de Azure que admiten zonas de disponibilidad.

Requisitos

Todas las SKU de Key Vault, Estándar y Premium, admiten el mismo nivel de disponibilidad y resistencia. No hay ningún requisito específico del nivel para lograr resiliencia de zona.

Costos

No hay ningún costo adicional asociado a la redundancia de zona en Key Vault. Los precios se basan en la SKU, estándar o Premium, y el número de operaciones realizadas.

Comportamiento cuando todas las zonas están en buen estado

En esta sección se describe qué esperar cuando los almacenes de claves están en una región que tiene zonas de disponibilidad y todas las zonas de disponibilidad están operativas:

  • Enrutamiento de tráfico entre zonas: Key Vault administra automáticamente el enrutamiento del tráfico entre zonas de disponibilidad. Durante las operaciones normales, las solicitudes se distribuyen entre zonas de forma transparente.

  • Replicación de datos entre zonas: los datos de Key Vault se replican sincrónicamente entre zonas de disponibilidad en regiones que admiten zonas. Esta replicación garantiza que las claves, los secretos y los certificados sigan siendo coherentes y estén disponibles incluso si una zona deja de estar disponible.

Comportamiento durante un fallo de zona

En la sección siguiente se describe qué esperar cuando los almacenes de claves están en una región que tiene zonas de disponibilidad y una o varias zonas de disponibilidad no están disponibles:

  • Detección y respuesta: El servicio Key Vault es responsable de detectar errores de zona y responder automáticamente a ellos. No es necesario realizar ninguna acción ante un fallo de zona.
  • Solicitudes activas: durante un error de zona, es posible que la zona afectada no controle las solicitudes en curso, lo que requiere que las aplicaciones cliente vuelvan a intentarlas. Las aplicaciones cliente deben seguir los procedimientos transitorios de control de errores para asegurarse de que pueden reintentar solicitudes si se produce un error de zona.

  • Pérdida de datos esperada: No se espera ninguna pérdida de datos durante un error de zona debido a la replicación sincrónica entre zonas.

  • Tiempo de inactividad esperado: En el caso de las operaciones de lectura, debe haber un tiempo de inactividad mínimo o nulo durante un error de zona. Las operaciones de escritura pueden experimentar una falta de disponibilidad temporal mientras el servicio se ajusta al error de zona. Se espera que las operaciones de lectura permanezcan disponibles durante fallos de zona.

  • Reenrutamiento del tráfico: Key Vault vuelve a enrutar automáticamente el tráfico de la zona afectada a zonas correctas sin necesidad de intervención del cliente.

Recuperación de zona

Cuando se recupera la zona de disponibilidad afectada, Key Vault restaura automáticamente las operaciones a esa zona. La plataforma Azure administra completamente este proceso y no requiere ninguna intervención del cliente.

Resistencia a errores en toda la región

Los recursos de Key Vault se implementan en una sola región de Azure. Si la región deja de estar disponible, el almacén de claves tampoco está disponible. Sin embargo, hay enfoques que puede usar para ayudar a garantizar la resistencia a las interrupciones de la región. Estos enfoques dependen de si el almacén de claves está en una región emparejada o no emparejada y en sus requisitos y configuración específicos.

Conmutación por error administrada por Microsoft en una región emparejada

Key Vault admite la replicación administrada por Microsoft y la conmutación por error para almacenes de claves en la mayoría de las regiones emparejadas. El contenido del almacén de claves se replica automáticamente dentro de la región y, de forma asincrónica, en la región emparejada. Este enfoque garantiza una alta durabilidad de las claves y los secretos. En el caso poco probable de un error prolongado en la región, Microsoft podría iniciar una conmutación por error regional del almacén de claves.

Las regiones siguientes no admiten la replicación administrada por Microsoft ni la conmutación por error entre regiones:

  • Sur de Brasil
  • Sudeste de Brasil
  • Oeste de EE. UU. 3
  • Cualquier región que no tenga una región emparejada

Importante

Microsoft inicia la conmutación por error administrada por Microsoft. Es probable que se produzca después de un retraso significativo y se realice con el mejor esfuerzo. También hay algunas excepciones a este proceso. La conmutación por error de almacenes de claves puede producirse en un momento diferente del tiempo de conmutación por error de otros servicios de Azure.

Si necesita ser resistente a interrupciones de regiones, considere la posibilidad de usar una de las soluciones personalizadas de varias regiones para lograr resistencia.

También puede usar la función de copia de seguridad y restauración para replicar el contenido de la bóveda en otra región de su elección.

Consideraciones

  • Tiempo de inactividad: aunque la conmutación por error está en curso, es posible que el almacén de claves no esté disponible durante unos minutos.

  • Solo lectura después de la conmutación por error: después de la conmutación por error, el almacén de claves se convierte en de solo lectura y solo admite acciones limitadas. No se pueden cambiar las propiedades del almacén de claves mientras se trabaja en la región secundaria y no se pueden modificar las configuraciones de directiva de acceso y firewall mientras se trabaja en la región secundaria.

    Cuando el almacén de claves está en modo de solo lectura, solo se admiten las siguientes operaciones:

    • Enumerar certificados
    • Obtención de certificados
    • Enumerar secretos
    • Obtención de secretos
    • Enumerar claves
    • Obtención de (propiedades de) claves
    • Cifrar
    • Descifrar
    • Envoltorio
    • Desempaquetar
    • Verify
    • Firma
    • Backup

Costos

No hay ningún costo adicional para las funcionalidades integradas de replicación de varias regiones de Key Vault.

Comportamiento cuando todas las regiones están en buen estado

En la sección siguiente se describe qué esperar cuando un almacén de claves se encuentra en una región que admite la replicación administrada por Microsoft y la conmutación por error y la región primaria está operativa:

  • Enrutamiento de tráfico entre regiones: durante las operaciones normales, todas las solicitudes se enrutan a la región primaria donde se implementa el almacén de claves.

  • Replicación de datos entre regiones: Key Vault replica los datos de forma asincrónica en la región emparejada. Al realizar cambios en el contenido de la bóveda de claves, esos cambios se confirman primero en la región primaria y, a continuación, se replican en la región secundaria.

Comportamiento durante una falla de región

En la sección siguiente se describe qué esperar cuando un almacén de claves se encuentra en una región que admite la replicación administrada por Microsoft y la conmutación por error y hay una interrupción en la región primaria:

  • Detección y respuesta: Microsoft puede decidir realizar una conmutación por error si se pierde la región primaria. Este proceso puede tardar varias horas después de la pérdida de la región primaria o más tiempo en algunos escenarios. Es posible que la conmutación por error de almacenes de claves no se produzca al mismo tiempo que otros servicios de Azure.
  • Solicitudes activas: Durante una conmutación por error de región, las solicitudes activas pueden producir errores y las aplicaciones cliente deben reintentarlas una vez completada la conmutación por error.

  • Pérdida de datos esperada: Puede haber alguna pérdida de datos si los cambios no se replican en la región secundaria antes de que se produzca un error en la región primaria.

  • Tiempo de inactividad esperado: durante una interrupción importante de la región primaria, es posible que el almacén de claves no esté disponible durante varias horas o hasta que Microsoft inicie la conmutación por error a la región secundaria.

    Si usa Private Link para conectarse al almacén de claves, la conexión puede tardar hasta 20 minutos en restablecerse después de la conmutación por error de la región.

  • Reenrutamiento del tráfico: Una vez completada la conmutación por error de una región, las solicitudes se enrutan automáticamente a la región emparejada sin necesidad de intervención del cliente.

Soluciones personalizadas de varias regiones para la resistencia

Hay escenarios en los que las funcionalidades de conmutación por error entre regiones administradas por Microsoft de Key Vault no son adecuadas:

  • El almacén de claves está en una región no emparejada.

  • El almacén de claves está en una región emparejada que no admite la replicación y conmutación por error administradas por Microsoft en el Sur de Brasil, el Sudeste de Brasil y el Oeste de EE. UU. 3.

  • Los objetivos de tiempo de actividad empresarial no están satisfechos por el tiempo de recuperación o la pérdida de datos que proporciona la conmutación por error entre regiones administrada por Microsoft.

  • Debe conmutar por error a una región que no esté emparejada con la región principal.

Puede diseñar una solución de conmutación por error personalizada entre regiones siguiendo estos pasos:

  1. Cree almacenes de claves independientes en diferentes regiones.

  2. Use la funcionalidad de copia de seguridad y restauración para mantener secretos coherentes entre regiones.

  3. Implemente la lógica de nivel de aplicación para conmutar por error entre almacenes de claves.

Copias de seguridad y restauración

Key Vault puede realizar copias de seguridad y restaurar secretos, claves y certificados individuales. Las copias de seguridad están pensadas para proporcionarle una copia offline de sus secretos en el improbable caso de perder acceso al almacén de claves.

Tenga en cuenta los siguientes factores clave relacionados con la funcionalidad de copia de seguridad:

  • Las copias de seguridad crean blobs cifrados que no se pueden descifrar fuera de Azure.

  • Las copias de seguridad solo se pueden restaurar en un almacén de claves dentro de la misma suscripción de Azure y la misma geografía de Azure.

  • Hay una limitación de realizar una copia de seguridad de no más de 500 versiones anteriores de una clave, un secreto o un objeto de certificado.

  • Las copias de seguridad son instantáneas de un momento específico y no se actualizan automáticamente cuando cambian las claves.

Para la mayoría de las soluciones, no debe confiar exclusivamente en copias de seguridad. En su lugar, utilice las otras capacidades descritas en esta guía para apoyar los requisitos de resiliencia. Sin embargo, las copias de seguridad protegen contra algunos riesgos que otros métodos no cubren, como el borrado accidental de secretos específicos. Para más información, consulte Copia de seguridad de Key Vault.

Características de recuperación

Key Vault proporciona dos características de recuperación clave para evitar la eliminación accidental o malintencionada:

  • Eliminación temporal: cuando está habilitada, la eliminación temporal permite recuperar almacenes y objetos eliminados durante un período de retención configurable. Este período es un valor predeterminado de 90 días. Piense en la eliminación temporal como una papelera de reciclaje para los recursos del almacén de claves.

  • Protección de purga: cuando está habilitada, la protección de purga evita la eliminación permanente del almacén de claves y sus objetos hasta que transcurre el período de retención. Esta protección evita que los actores malintencionados destruyan permanentemente los secretos.

Se recomienda encarecidamente ambas características para entornos de producción. Para obtener más información, consulte Eliminación temporal y protección de purga en la documentación de administración de recuperación de Key Vault.

Acuerdo de nivel de servicio

El contrato de nivel de servicio (SLA) para los servicios de Azure describe la disponibilidad esperada de cada servicio y las condiciones que la solución deberá cumplir para lograr esa expectativa de disponibilidad. Para obtener más información, consulte Acuerdos de Nivel de Servicio para servicios en línea.