Introdução à SRE

Concluído

Como uma unidade final deste módulo, vamos falar sobre as próximas etapas, caso você esteja interessado em explorar a SRE.

Lendo e assistindo

Para obter informações mais detalhadas sobre a SRE, a melhor fonte são três livros que foram publicados sobre o assunto

  1. Engenharia de confiabilidade do site: como o Google executa sistemas de produção (conhecido como "O Livro SRE")
  2. A pasta de trabalho de confiabilidade do site: maneiras práticas de implementar o SRE (conhecido como "A pasta de trabalho SRE")
  3. Buscando SRE: Conversas sobre a execução de sistemas de produção em escala

(Só para constar, o autor principal deste módulo é o curador/editor do terceiro livro)

Cada um desses livros fornece um conjunto importante de informações:

  • O livro SRE: Fornece uma explicação detalhada de como o Google implementou o SRE ao longo dos anos.

  • O Manual SRE: Um complemento ao Livro do SRE que fornece uma explicação mais detalhada não apenas do "o quê" do SRE no Google e em alguns outros lugares, mas também do "como" e "por quê".

  • Buscando SRE: Fornece uma visão mais expansiva do mundo SRE além de sua origem, incluindo informações sobre como ele foi implementado em outros ambientes.

Leia os três livros com um olhar crítico. Talvez nem tudo que está escrito nesses livros se aplique a você e à sua organização. Reserve algum tempo para identificar as informações que você tem certeza de que podem fornecer algum valor positivo. Pense sobre quais partes da cultura e dos valores de sua organização podem dar suporte ao trabalho da SRE descrito e que podem torná-lo mais desafiador.

Se você achar que é mais uma pessoa visual, tente assistir ao talk Keys to SRE de Ben Treynor na conferência SREcon14. Treynor fornece uma explicação convincente do que é a SRE (pelo menos no contexto da Google). Outras conversas gravadas sobre o SRE desta série de conferências e outras também podem ser úteis.

Conversar com outras pessoas interessadas

Tão importante quanto ler sobre a SRE é, muitas vezes, conversar sobre ela com seus colegas. Ter uma discussão sobre seus desafios, sucessos e fracassos em torno do SRE pode ser crucial para obter uma compreensão mais detalhada do assunto.

Há várias reuniões e conferências que apresentam conteúdo sobre a SRE. Talvez as mais diretamente relevantes sejam as conferências SREcon distribuídas globalmente pela USENIX (isenção de responsabilidade: o autor principal deste módulo é um dos cofundadores do SREcon).

Ainda mais conteúdo de SRE está a caminho de conferências como Velocity, LISA e conferências de DevOps locais, como o DevOps Days. Procure esse conteúdo e outras pessoas interessadas no assunto sempre que puder encontrá-los.

Primeiras etapas no trabalho

É importante lembrar que a SRE não é uma proposta do tipo "tudo ou nada". Se quiser começar a explorar como trazer a SRE para seu ambiente, você pode começar adotando princípios e práticas de SRE em pequenas passos.

Mikey Dickerson é um SRE bem conhecido por seu trabalho no que se tornaria o Serviço Digital dos Estados Unidos. Eles foram responsáveis por salvar o healthcare.gov. Ele propôs uma hierarquia de confiabilidade inspirada na hierarquia de necessidades de Maslow. Ele é citado na seção Práticas do primeiro livro SRE.

Essa hierarquia propõe que você primeiro deve obter monitoramento funcional e confiável em seu ambiente. O monitoramento deve ser uma primeira etapa em direção à SRE para seu ambiente também. Você não pode determinar se algo é confiável (ou está melhorando ou piorando) se não pode medi-lo.

Depois de ter uma plataforma de monitoramento em que você possa confiar, a próxima etapa acessível é escolher um serviço em funcionamento. Em seguida, comece a ter conversas de SLI e SLO sobre isso. Comece de forma simples. Crie SLIs e SLOs para o serviço, implemente-os em seu sistema de monitoramento e veja o que acontece quando você começa a prestar atenção à confiabilidade usando a lente SRE. Essas são ótimas etapas para começar.