Introdução ao SRE

Concluído

Uma vez que esta é a unidade final neste módulo, vamos abordar que caminhos pode seguir se estiver interessado em explorar a SRE.

Ler e observar

Para obter informações mais detalhadas sobre a SRE, recomendamos três livros que foram publicados sobre este tema

  1. Engenharia de confiabilidade do site: como o Google executa sistemas de produção (conhecido como "O livro SRE")
  2. A pasta de trabalho de confiabilidade do site: maneiras práticas de implementar o SRE (conhecida como "A pasta de trabalho SRE")
  3. Procurando SRE: Conversas sobre gerir sistemas de produção em larga escala

(Como uma apresentação rápida, o autor principal deste módulo é o curador/editor do terceiro livro)

Cada um destes livros fornece um conjunto importante de informações:

  • O Livro SRE: Fornece uma explicação detalhada de como o Google implementou o SRE ao longo dos anos.

  • A pasta de trabalho SRE: Um complemento para The SRE Book que fornece uma explicação mais detalhada não apenas do "quê" do SRE no Google e em alguns outros lugares, mas do "como" e do "porquê".

  • Buscando SRE: Fornece uma visão mais abrangente do mundo SRE além de sua origem, incluindo informações sobre como ele foi implementado em outros ambientes.

Não se esqueça de ler estes três livros com um olhar crítico. Nem tudo o que está escrito nestes livros pode aplicar-se a si e à sua organização. Reserve algum tempo para identificar as informações que você tem certeza de que podem fornecer algum valor positivo. Pense nas partes da cultura e dos valores da sua organização que podem suportar o trabalho de SRE conforme descrito e que o poderão tornar mais desafiador.

Se você achar que é mais uma pessoa visual, tente assistir à palestra Keys to SRE de Ben Treynor na conferência SREcon14. Treynor fornece uma explicação convincente do que é SRE (pelo menos no contexto do Google). Outras palestras gravadas sobre SRE desta série de conferências e outras também podem ser úteis.

Falar com outras pessoas interessadas

Tão importante como ler sobre a SRE, falar com os seus colegas pode ser ainda mais importante. Ter uma discussão sobre seus desafios, sucessos e fracassos em torno do SRE pode ser crucial para obter uma compreensão diferenciada do assunto.

Há muitos encontros e conferências que apresentam conteúdo SRE. Talvez a mais diretamente relevante sejam as conferências SREcon distribuídas globalmente realizadas pela USENIX (aviso legal: o principal autor deste módulo é um dos cofundadores da SREcon).

Ainda mais conteúdo SRE está chegando a conferências como Velocity, LISA e conferências locais de DevOps, como DevOps Days. Tente procurar conteúdo relacionado e outras pessoas interessadas no assunto, sempre que possível.

Primeiros passos no trabalho

É importante lembrar que o SRE não é uma proposta de "tudo ou nada". Se você quiser começar a explorar como trazer o SRE para o seu ambiente, você pode começar a adotar os princípios e práticas do SRE em pequenos passos.

Mikey Dickerson é um SRE bem conhecido com base em seu trabalho no que viria a ser o Serviço Digital dos Estados Unidos. Eles foram responsáveis por salvar healthcare.gov. Ele propôs uma hierarquia de confiabilidade em homenagem à hierarquia de necessidades de Maslow. É citado na seção Práticas do primeiro livro SRE.

Essa hierarquia propõe que você deve primeiro obter monitoramento funcional e confiável em seu ambiente. O monitoramento deve ser um primeiro passo para o SRE para o seu ambiente também. Não será possível dizer se algo é de confiança (ou se está ou não a melhorar) se não for possível fazer uma avaliação.

Depois de ter uma plataforma de monitoramento em que possa confiar, o próximo passo acessível é escolher um serviço no trabalho. Então, comece a ter conversas SLI e SLO sobre isso. Não complique. Crie SLIs e SLOs para o serviço, implemente-os em seu sistema de monitoramento e veja o que acontece quando você começa a prestar atenção à confiabilidade usando a lente SRE. Estas etapas são um ótimo lugar para começar.