안정성의 디커슨 계층 구조
- 3분
안정성 향상 학습 경로에 대한 맵은 Dickerson Hierarchy of Reliability라는 사이트 안정성 엔지니어링 세계의 모델을 기반으로 합니다. Mikey Dickerson은 미국 디지털 서비스의 창립 관리자가 된 SRE였습니다. 그는 사상 최대 규모의 안정성 위기에 직면하면서 이 계층 구조를 만들었습니다.
이 모델은 인간의 동기를 해결하는 아브라함 마슬로의 요구 계층 구조 이후 패턴화됩니다. Maslow의 계층 구조와 마찬가지로 계층 구조를 진행하려면 하위 수준 각각이 먼저 해결되었는지 확인해야 합니다. 이 학습 경로에 초점을 맞추는 수준은 다음과 같습니다.
모니터링
이 수준은 다른 수준이 유지되는 중요한 기반입니다. 목표 데이터와 관련하여 조직의 안정성에 대한 구체적인 대화를 나눌 수 있는 정보 원본입니다. 변경하면 이 방법을 통해 효과를 알 수 있습니다. 보다 명확히 말하자면, 이 관행은 상황이 나아지고 있는지 여부를 파악하는 방법입니다. 모니터링이 견고하기 전까지는 나머지 작업을 완료할 수 없습니다.
인시던트 대응
모든 프로덕션 환경에는 일종의 중단이 있습니다. 이 사실에 이의를 제기하는 것은 없습니다. 그런 다음 질문은 "인시던트가 발생할 때 어떻게 해야 합니까? 시스템이 다운되고 고객에게 영향을 받으면 어떻게 되나요?" 문제를 심사하고 적절한 리소스를 사용한 다음 문제를 완화하는 데 효과적인 표준 프로세스가 필요합니다. 동시에 문제에 대해 이해 관계자와 통신하고 있는지 확인하려고 합니다.
인시던트 후 검토(실패에서 학습)
이 프로세스를 통해 각 중요한 인시던트에 대한 경험을 집단적으로 조사, 검토 및 논의하여 운영 관행을 평준화할 수 있습니다. 인시던트 후 검토를 통해 오류로부터 학습할 수 있으며 안정성 작업에 매우 중요합니다.
테스트/릴리스(배포)
다음 단계는 테스트, 릴리스 및 배포 프로세스에 중점을 두는 것입니다. 이 수준을 "인시던트가 발생하기 전에 문제를 해결할 수 있는 시스템과 프로세스를 만드는 데 얼마나 능숙한가?"라고 생각할 수 있습니다.
용량 계획/크기 조정
성공과 그에 따른 성장은 시스템의 문제만큼이나 안정성에 위협이 될 수 있습니다. 코드에 버그가 있기 때문에 중단된 시스템과 동시에 액세스하려는 너무 많은 사용자의 부하를 처리할 수 없기 때문에 중단된 시스템 간의 차이를 고객이 알 수 없습니다. 이러한 수준의 계층 구조는 이러한 위협을 해결하는 방법으로 용량 계획 및 크기 조정에 주의를 기울이도록 지시합니다.
개발 프로세스 및 사용자 환경
계층 구조에는 안정성 향상 학습 경로에서 다루지 않는 두 가지 수준이 더 있습니다. 즉, 개발 프로세스와 UX(사용자 환경)를 개선하는 작업입니다. 이 두 주제는 안정성 향상 학습 경로에서 다루지 않지만 이러한 주제에 대한 다른 좋은 Learn 모듈을 사용할 수 있습니다.
안정성 계층 구조의 각 수준에 대해 별도의 Learn 모듈을 만들었습니다. 이 학습 경로의 5개 모듈 모두에 참여해 주시기 바랍니다.