Explore as operações contínuas

8 minutos

Operações contínuas é um dos oito recursos na taxonomia de DevOps.

Descubra por que as Operações Contínuas são necessárias

Sistemas complexos falham e podem causar interrupções e interrupções dispendiosas. Vejamos alguns exemplos.

Companhias	Evento
a Delta Air Lines	Em agosto de 2016, a Delta foi forçada a cancelar 2.300 voos quando um único equipamento com defeito causou uma queda de energia em seu centro de operações em Atlanta. O custo relatado para a empresa foi de US$ 150 milhões.
a FedEx e o Serviço Nacional de Saúde do Reino Unido	Em maio de 2017, o ransomware WannaCry causou interrupções operacionais na FedEx. Uma subsidiária da FedEx reportou US$ 300 milhões em perdas. O Serviço Nacional de Saúde do Reino Unido foi outra vítima do ransomware, que bloqueou o acesso aos seus computadores, bloqueou equipamentos médicos vitais e obrigou alguns hospitais a desviar ambulâncias para outros locais.
o Amazon S3	Em fevereiro de 2017, um erro do operador causou uma interrupção de quatro horas nos principais serviços de armazenamento da Amazon, o que teve vários impactos em propriedades significativas da web, como Alexa, IFTTT, Quora e Trello.
o LinkedIn	O LinkedIn teve um problema que impediu que o trabalho de DEV fosse feito por dois meses.
a Equifax	A Equifax sofreu uma violação em 2017, que resultou na exposição das informações pessoais de mais de 160 milhões de consumidores. Discutimos isso com mais detalhes em de Segurança Contínua.

O impacto nos negócios e o custo de uma violação

Os custos de uma violação muitas vezes vão muito além da perda de vendas e confiança em uma empresa. Estes custos podem incluir:

Resposta & notificação
- Existem custos operacionais e de serviço para notificar as partes afetadas, conforme exigido por lei. Esses custos geralmente também incluem custos adicionais para call centers, suporte de RP e serviços de monitoramento de crédito.
Perda de produtividade e rotatividade dos funcionários
- O conselheiro geral do Yahoo demitiu-se e o CEO não recebeu um bónus anual para 2016.
Ações judiciais e acordos
- A Target pagou US$ 18,5 milhões a 47 estados dos EUA.
Multas e respostas regulatórias
- Com as novas políticas de proteção de dados em vigor na União Europeia desde 2018, a multa é de 4% de receita anual ou € 20 milhões, o que for maior.
Custos de recuperação da marca
- A empresa de tecnologia de mineração Codan viu a receita cair de US$ 45 milhões para US$ 9,2 milhões em um ano.
Outros elementos do passivo
- A Verizon pagou US$ 350 milhões a menos pelo Yahoo após dois hacks maciços.

Requisitos adicionais de segurança e auditoria também podem ser necessários.

Disponibilidade e recuperação em operações contínuas

De acordo com uma pesquisa do Gartner, os líderes de negócios e TI esperam que cerca de 47% dos aplicativos de produção estejam sendo executados em locais de nuvem pública até 2020.

Quando datacenters inteiros podem ser destruídos com uma linha de código,&o foco dos líderes na disponibilidade e recuperação de ambientes de produção precisa mudar. Novos padrões de implantação estão mudando a forma como garantimos a disponibilidade e os recursos de recuperação de aplicativos e infraestrutura.

diagrama mostra as operações contínuas que suportam disponibilidade, resiliência, recuperação e confiabilidade. Detetamos problemas, fazemos triagem, agimos de acordo com eles e aprendemos com nossas ações. O ciclo é apoiado por pessoas e tecnologia.

Aumento do número de aplicativos e lançamentos em produção

Os principais indicadores de desempenho para o desempenho da entrega de software são:

Prazo para a mudança
Frequência de implantação
Tempo médio para restaurar
Alterar a taxa de falhas

As equipes que trabalham para aumentar a velocidade, mas não investem o suficiente na construção de de qualidade no processo, enfrentarão falhas maiores e mais tempo para restaurar o serviço. As equipas que constroem qualidade no processo alcançam velocidade e estabilidade.

O número de aplicações Web e móveis e a frequência de lançamentos de aplicações aumentaram consideravelmente. O código também se tornou cada vez mais complexo.

Diagrama mostra o número de aplicações e a frequência de lançamento aumentou de 2010 para 2020.

Observação

Uma grande parte do valor do DevOps em geral é encontrar o equilíbrio certo entre inovação (velocidade) e continuidade de negócios (controle).

O que é Operações Contínuas?

Importante

Operações Contínuas reduz ou elimina a necessidade de paradas ou interrupções planejadas, como manutenção programada. O monitoramento contínuo da infraestrutura, dos aplicativos e dos serviços deve ser vinculado à correção automatizada, se possível. Um usuário nunca deve saber quando ocorre uma atualização ou lançamento incremental.

diagrama mostra como o AIOps e o Digital Experience Monitoring, a orquestração de lançamentos de aplicativos e o monitoramento baseado em tempo de atividade dão suporte a insights de experiência do cliente, implantação rápida de aplicativos, escalabilidade dinâmica e estratégias de nuvem em primeiro lugar.

Compare as práticas tradicionais e de operação contínua

Em um modelo empresarial tradicional, a TI impõe o que é liberado e controla todos com processos e procedimentos rígidos.

Essa abordagem causa um desalinhamento entre as equipes de desenvolvimento e a governança de TI. As equipes de desenvolvimento são em sua maioria ágeis, focadas na velocidade e esperando lançar quantas vezes quiserem. Para eles, a Governança de TI parece ser um gargalo que não está alinhado com os objetivos esperados de Time to Market das necessidades de negócios atuais.

diagrama mostra o desalinhamento entre as equipes de desenvolvimento e a governança de TI. As equipes de desenvolvimento se concentram na velocidade por meio de autosserviço, acesso à produção e lançamentos rápidos. A governança se concentra no controle por meio de políticas, segurança e gerenciamento de custos.

Importante

Quando implementado corretamente, o DevOps pode oferecer inovação (velocidade) e continuidade de negócios (controle de).

Num ciclo de vida de desenvolvimento tradicional:

Os testes são feitos pouco antes da entrada em funcionamento.
O acompanhamento é muitas vezes entregue.
A segurança é frequentemente consultada nas fases de teste.
Durante a entrega, verificações de segurança do código e todos os controles de gerenciamento de serviço devem ser feitos.
A conformidade muitas vezes não faz parte da entrega, mas algo que "aparece" durante o estado operacional de um serviço.
O planejamento de resiliência/continuidade é feito como parte da fase de projeto, mas os testes reais de cenários relacionados geralmente são feitos apenas durante as operações ou a fase de teste, o que pode levar a alterações de configuração, retrabalho e esforço desperdiçado.
A colaboração entre operações, segurança & conformidade e desenvolvedores geralmente é feita de forma reativa por meio de processos de gerenciamento de incidentes e gerenciamento de problemas.
Deixar a automação até os estágios finais muitas vezes deixa poucos recursos para fazê-la.

Diagrama mostra o ciclo de vida de desenvolvimento tradicional.

Novos métodos, tecnologias e formas de trabalho exigem uma nova abordagem às Operações Contínuas. As seguintes oito principais práticas de Operações Contínuas surgiram e continuam a evoluir:

Segurança & conformidade by design reconhece que determinadas normas, legislação, mas também requisitos de negócios, como rastreabilidade e auditabilidade, devem ser levados em consideração no momento do projeto ao projetar para ambientes de nuvem altamente automatizados.
de continuidade & resiliência requer uma estreita colaboração com a organização para garantir que as necessidades de negócio se refletem na conceção e implementação.
de monitoramento de telemetria & pode ser usado para descobrir padrões de uso do cliente, novas necessidades potenciais e informações detalhadas sobre onde os usuários encontram erros. Essas ferramentas também podem ajudar a garantir que o valor seja entregue.
de Gerenciamento de Serviços é uma conversa diferente em uma cultura de DevOps:
- Mudar para significa que você é o dono. Você o constrói, você o executa e, quando ele quebra, você o conserta.
- Concentre-se no que é necessário.
- Capacitar a governança.
- Facilitar a transparência.
Cultura & colaboração são essenciais para as Operações Contínuas. Muitas vezes, as organizações são obrigadas a mudar a maneira como trabalham para facilitar a transformação em direção às equipes de DevOps. A colaboração também é essencial ao projetar para segurança e resiliência.
Automação & de operações de IA/ML são aspetos importantes do que tornam o DevOps (e a nuvem) diferentes em comparação com as equipes de operações tradicionais. O foco deve ser em todo o sistema que está sendo automatizado (automação sistêmica), e não apenas em uma área.
de Implantação Contínua usa pipelines de lançamento modernos para permitir que as equipes de desenvolvimento implantem novos recursos com rapidez e segurança, permitindo um fluxo contínuo de valor para o cliente e reduzindo o tempo para corrigir problemas.
de testes Shift-right usa práticas como inicialização escura, sinalizadores de recursos, monitoramento e testes A/B. Em seguida, as equipes podem continuar os testes para garantir que um aplicativo atenda às expectativas de comportamento, desempenho e disponibilidade durante o uso ao vivo.

diagrama mostra como fazer operações contínuas. Você precisa aplicar uma mudança de paradigma e usar os princípios de Operações Contínuas de DevOps.

Para evoluir para uma abordagem de DevOps, uma grande mudança de paradigma precisa ocorrer na cultura para fornecer valor de negócios com uma abordagem de TI moderna.

	de TI tradicional	de TI moderno
ADN	Intermediação	Supressão da intermediação
Prestação de serviços	Baseado em ondas	Baseado em iteração contínua
Estabilidade de serviço	Design para o sucesso (HA/Redundante)	Design para falhas (resiliente)
Níveis de delegação	Silos de TI	Serviços de ponta a ponta
Processos	Em documentos, otimizado, redesenhado	Autosserviço, conhecimento, baixo atrito, automatizado
Automação	Isolado, iniciado manualmente	Sistémico, acionado, automático
Monitorização	Elemento, focado em falhas	Serviço, focado em recursos de ponta a ponta
Suporte	Service Desk / Centro de Contacto	Atendimento ao cliente / Self service
Ciclo de vida	N-1 ou superior	N, N+1
de Configuração/Gestão de Ativos	Configuração Descoberta/Manual	Prescrito, declarativo, automatizado

Essas mudanças resultam em processos simplificados e automatizados, incentivos de resultados alinhados, riscos reduzidos e uma abordagem centrada no cliente.

Feedback

Esta página foi útil?