다음을 통해 공유


Azure 클라우드 작업 준비

Azure 환경을 관리하는 것은 조명을 켜는 것만이 아닙니다. 클라우드가 시간이 지남에 따라 비즈니스 목표에 맞게 유지되도록 하면서 거버넌스 및 보안을 유지하는 것입니다. 환경이 증가함에 따라 구성 드리프트를 방지하고, 코드로서의 인프라를 통해 배포를 개선하고, 변경을 효과적으로 관리해야 합니다.

CAF(클라우드 채택 프레임워크) 관리 방법론은 이러한 기능을 빌드하는 데 도움이 되는 RAMP 접근 방식(준비, 관리, 모니터링, 보호)을 도입합니다. RAMP는 팀을 구성하고, 책임을 정의하고, Azure 작업을 안전하고, 준수하며, 복원력을 유지하는 프로세스와 도구를 구현하는 구조화된 방법을 제공합니다. 일상적인 관리부터 상태 모니터링 및 중단으로부터 보호에 이르기까지 RAMP는 장기적인 성공을 위한 강력한 운영 기반을 구축하는 데 도움이 됩니다.

CAF 관리 프로세스(RAMP) 준비, 관리, 모니터링 및 보호를 보여 주는 다이어그램

관리 책임 식별

효과적인 Azure 관리는 중앙(플랫폼) 책임과 워크로드 책임이라는 두 가지 책임 계층에 걸쳐 있습니다. 중앙 책임은 전체 클라우드 자산에 적용됩니다. 워크로드 책임은 개별 애플리케이션 또는 서비스에 중점을 줍니다. 표 1을 사용하여 운영 모델이 클라우드 관리의 필수 영역을 포함하는지 확인합니다.

표 1. 기본 클라우드 관리 책임

클라우드 관리 영역 중앙(플랫폼) 책임 업무 분담 책임
Compliance 운영 절차를 정의합니다.
거버넌스 정책을 적용합니다.
규정 준수를 모니터링하고 필요에 따라 수정하거나 에스컬레이션합니다.
▪ 운영 절차를 따릅니다.
▪ 거버넌스 정책에 맞게 디자인 조정
Security ▪ 조직 전체 보안 작업을 관리합니다.
Microsoft Entra ID에서 ID를 관리합니다.
▪ Azure 구독에 대한 액세스 권한을 부여합니다.
▪ Azure Policy 및 클라우드용 Microsoft Defender를 통해 보안 기준을 정의하고 유지 관리합니다.
▪ Microsoft Sentinel과 위협 방지 및 인시던트 대응 통합을 감독합니다.
보안 워크로드 디자인을 구현합니다.
▪ 워크로드별 보안 경고 및 인시던트에 대응합니다.
▪ 워크로드 내의 취약성을 지속적으로 평가합니다.
리소스 관리 리소스 계층 구조를 정의하고 유지 관리합니다.
▪ 요청된 대로 워크로드 구독을 만듭니다.
명명 및 태그 지정 전략을 정의합니다.
네트워크 토폴로지 정의
▪ 공유 네트워킹(가상 네트워크 피어링, 온-프레미스 연결)을 구성합니다.
▪ 워크로드 간 또는 공유 리소스/서비스를 관리합니다.
▪ 구독 제한을 모니터링하고 할당량 증가에 대한 요청을 처리합니다.
▪ 워크로드별 구독을 관리합니다(위임된 경우).
▪ 각 워크로드에 대한 리소스 그룹 및 리소스를 관리합니다.
▪ 명명 및 태그 지정 표준을 준수하고 적용합니다.
▪ 애플리케이션 수준 리소스 사용률을 관리하여 리소스가 구독 할당량 내에서 유지되도록 합니다.
배치 CI/CD 파이프라인 및 도구 (Azure DevOps, GitHub Actions)를 표준화하고 관리합니다.
▪ 인프라스트럭처 코드로서의 참조 템플릿(Bicep, Terraform, ARM 템플릿)을 정의합니다.
▪ 파이프라인 보안(코드 검색, 비밀 관리)에 대한 중앙 모범 사례를 제공합니다.
워크로드 배포에 중앙 CI/CD 프레임워크 및 IaC 템플릿을 사용합니다.
▪ 워크로드별 배포 작업(앱 설정, 데이터베이스 구성)을 구현합니다.
▪ 중앙 지침을 준수하면서 워크로드 요구에 맞게 참조 템플릿을 조정합니다.
발달 ▪ 표준화된 개발 도구 체인 및 프레임워크를 제공하고 적용하여 일관성을 가속화합니다(코딩 표준, DevOps 모범 사례).
▪ 공유 라이브러리 또는 모듈에 대한 내부 리포지토리 또는 패키지 피드를 유지 관리합니다.
워크로드 개발을 위해 표준 도구 체인을 채택하고 조정합니다.
▪ 애플리케이션 수명 주기를 소유하고 모범 사례(단위 테스트, 통합 테스트)를 통합합니다.
▪ 워크로드의 코드 베이스에 대한 지속적인 개선을 관리합니다.
모니터링 모니터링 전략을 계획합니다.
▪ 중앙 집중식 책임에 대한 경고 입니다.
▪ 환경 전체에서 일반적인 운영 메트릭에 대한 대시보드를 제공합니다.
워크로드 모니터링
▪ 중앙 경고를 확장하거나 미세 조정하여 워크로드별 조건을 캡처합니다.
▪ 경고 및 로그를 기반으로 워크로드 수준 인시던트를 조사하고 수정합니다.
비용 ▪ 전역 또는 구독 수준 클라우드 예산 할당
▪ 조직 전체 의 클라우드 지출을 모니터링하고 비용 보고서를 만듭니다.
▪ 일반적으로 태그 또는 사용자 지정 비용 할당 모델을 사용하여 사업부 또는 제품에 비용을 할당합니다.
▪ 비용 할당에 태그 지정 전략을 적용합니다.
비용 최적화 워크로드 디자인
▪ 예산 제약 조건을 준수합니다.
Reliability ▪ 워크로드 우선 순위당 안정성 요구 사항 (SLO, RPO, RTO)을 정의합니다.
▪ BCDR(비즈니스 연속성 및 재해 복구)에 대한 지침을 제공합니다.
▪ 중앙 집중식 재해 복구 솔루션을 관리합니다.
▪ 모든 워크로드에서 주요 인시던트 관리를 지원합니다.
안정성 요구 사항을 충족하도록 워크로드를 디자인합니다.
Performance ▪ 중앙 집중식 구성 요소(허브 네트워크, 공유 서비스)에서 성능을 모니터링하고 유지 관리합니다.
▪ 성능 최적화 및 용량 계획에 대한 지침을 제공합니다.
▪ 할당량 모니터링
성능 효율성을 위해 워크로드를 디자인합니다.

클라우드 작업 설정

표 1에 설명된 책임을 사용하여 효과적인 운영 기반을 구축합니다. 다음 단계에 따라 팀, 표준 및 프로세스를 명확하게 정의합니다.

  1. 클라우드 운영 모델을 정의합니다. 조직의 크기와 완성도에 따라 중앙 집중식, 공유 관리 또는 분산 클라우드 운영 모델을 선택합니다. 지침은 클라우드 운영 모델 선택을 참조하세요.

  2. 중앙 플랫폼 책임을 할당합니다. 중앙 관리 작업을 처리하는 전담 팀을 구성합니다. 표 1에서 기술 매트릭스를 개발하여 필요한 전문 지식을 식별합니다.

  3. 워크로드 책임을 할당합니다. 워크로드별 작업에 대한 특수 팀을 설정합니다. 표 1을 사용하여 책임을 파악한 다음 그에 따라 채용합니다. Azure Well-Architected Framework 및 운영 탁월성 핵심 요소를 사용하여 워크로드 관리 책임을 이행하도록 안내합니다.

  4. 책임을 할당합니다. 모든 클라우드 관리 책임에 대한 특정 소유자의 이름을 지정합니다. 공유 관리 모델에서 워크로드 팀은 구독을 관리할 수 있는 자율성을 가져야 합니다.

클라우드 작업 문서화

클라우드 운영을 명확하게 문서화하여 효율적인 위기 대응 및 원활한 변경 구현을 가능하게 합니다. 가장 중요한 절차를 수립하고 빈번하고 구체적인 작업에 대한 자세한 가이드를 만듭니다.

문서 운영 절차

자동화에서 처리할 수 없는 변경, 재해 복구 및 일상적인 유지 관리 작업을 관리하기 위한 운영 절차를 정의합니다. 아래 단계를 수행하세요.

  1. 변경 관리 절차를 정의합니다. 변경은 클라우드에서 실패의 주요 원인입니다. 클라우드 환경에서 오류를 방지하기 위해 변경 내용을 관리하기 위한 표준화된 프로세스를 개발합니다. 변경 내용 관리를 참조하세요.

  2. 배포 절차(릴리스 관리)를 정의합니다. 일관된 구성을 유지하려면 배포, 릴리스 및 환경 프로모션을 표준화합니다. 배포 관리를 참조하세요.

  3. 재해 복구 및 비즈니스 연속성 절차를 정의합니다. 잠재적인 오류를 처리하려면 표준화된 응답 계획을 준비합니다. 재해 복구 및 비즈니스 연속성 관리를 참조하세요.

  4. 추가 프로시저를 정의합니다. 서비스 요청, 패치 및 구성 관리를 관리하기 위한 프로세스를 문서화합니다. 이해 관계자가 각 작업을 시작하거나 완료하는 방법을 알 수 있도록 이러한 프로세스를 명확하게 문서화합니다.

문서 운영 가이드

주요 운영 작업에 대한 자세한 단계별 가이드(Runbook 또는 플레이북)를 만듭니다. 이 준비는 일관된 실행을 보장하고, 효율성을 향상시키며, 중요한 이벤트 중 해결 시간을 단축합니다.

  1. 일상적인 작업을 정의합니다. 권한 에스컬레이션 요청 및 로그 검토와 같은 일상적인 책임을 다루는 설명서를 준비합니다. 각 시스템에 대한 메트릭, 경고 임계값 및 대시보드를 모니터링하기 위한 표준 SOP(운영 절차)를 설정합니다.

  2. Azure 중심 Runbook 라이브러리를 만듭니다. 다음과 같은 시나리오를 다루는 Azure 관련 Runbook을 만듭니다.

    Scenario Example
    높은 CPU 사용량 Azure App Service에서 강화 관리
    장애 조치 및 장애 복구 Azure Site Recovery의 장애 조치(failover) 및 장애 복구
    파란색/녹색 배포 Azure Front Door의 블루/그린 배포
    백업 복원 Azure Blob StorageAzure Cosmos DB에서 백업 복원
  3. 이러한 Runbook을 중앙 리포지토리에 저장합니다. 인시던트 중에 즉시 사용할 수 있도록 대기 엔지니어가 액세스할 수 있는 중앙 리포지토리에서 Runbook을 유지 관리합니다.

  4. 프로그래밍 방식으로 작업을 구현합니다. 코드로서의 인프라를 Runbook에 통합하여 매번 일관되고 정확하게 공통 리소스를 배포합니다.

  5. 검토하고 업데이트합니다. 운영 조정 및 클라우드 서비스 업데이트를 반영하기 위해 정기적으로 설명서를 검토하고 수정합니다.

문서 도구 및 솔루션

명확한 설명서는 일관성을 보장하고 운영 위험을 줄이며 팀 효율성을 향상시킵니다. 클라우드 도구에 대한 포괄적인 설명서를 만들고 유지 관리합니다. 현재 사례를 반영하고 모든 팀 구성원이 쉽게 액세스할 수 있도록 설명서를 정기적으로 업데이트합니다.

Area 예제 이점
Integration 표준화는 로그 및 코드 리포지토리를 통합하여 통합을 간소화합니다.
Automation 여러 팀에서 IaC 템플릿, 자동화 스크립트 및 프로젝트 전체의 모범 사례를 다시 사용합니다.
인시던트 관리 문제를 캡처하고 릴리스 주기에 통합되는 수정 작업을 생성합니다.

클라우드 작업 관리

효과적인 클라우드 관리는 운영 효율성을 최적화하고 가동 중지 시간을 줄이며 역할과 책임을 명확히 합니다. 자동화 및 구조적 지원 프로세스를 통해 클라우드 운영을 표준화합니다. 다음 운영 지침을 따릅니다.

  • 지속적인 클라우드 지원을 제공합니다. 24/7 지원 범위는 글로벌 팀이 순환 근무 모델을 채택하거나 체계적인 온-콜 교대제를 통해 설정합니다. 중요한 인시던트에 대한 적시에 대응하고 해결하도록 책임을 명확하게 정의합니다. 지정된 지원 담당자에게 즉시 알리도록 자동화된 경고를 구성합니다 .

  • 반복 작업을 자동화합니다. Azure 자동화 기능을 사용하여 수동 프로세스를 최소화하고 운영 오버헤드를 줄입니다. 오류를 제거하고 워크플로를 간소화하며 팀이 전략적 우선 순위에 집중할 수 있도록 일상적인 활동을 자동화합니다.

    사용 사례 예시
    Automation Azure Boards 또는 ITSM 시스템에서 워크플로를 자동화합니다. "변경 요청" 및 "인시던트" 작업 항목에 대한 템플릿입니다.
    사고 대응 표준 필드가 채워진 인시던트 티켓을 자동으로 생성하려면 Azure Monitor 및 Azure Service Health를 티켓 시스템과 통합합니다.
    변경 관리 Azure Logic Apps를 사용하여 위험 수준이 낮은 변경 내용을 자동 승인하거나 특정 인시던트를 자동으로 수정합니다.
    Compliance Azure Policy를 사용하여 클라우드 규정 준수를 적용하고 모니터링합니다.
    Security Microsoft Defender for Cloud 및 Microsoft Sentinel을 사용하여 보안 위협 감지 및 대응을 자동화합니다. Microsoft Entra ID 거버넌스를 사용하여 사용 권한을 검토하고 권한 관리를 자동화합니다.

작업 개선

지속적인 개선을 촉진하여 Azure 클라우드 환경을 최적화합니다. 정기적으로 작업을 평가하고 지속적인 학습 및 피드백의 우선 순위를 지정합니다. 아래 단계를 수행하세요.

  1. 작업을 검토하여 개선합니다. 모범 사례를 따라 상태, 규정 준수, 보안, 비용, 데이터 및 클라우드 리소스를 모니터링 합니다. 주별 운영 검토를 수행하여 주요 메트릭, 최근 인시던트, 배포된 변경 내용 및 예상 위험에 대해 논의합니다. 리소스 확산기술 문제를 적극적으로 해결합니다.

  2. 작업을 위해 학습합니다. 필수 학습 리소스의 우선 순위를 지정하여 지속적인 기술 개발을 촉진합니다. 실제 학습 환경을 통해 동적 클라우드 작업을 유지 관리합니다. 다음 표에서는 작업 학습을 위한 리소스를 제공합니다.

    운영 교육 Description
    자격 증명 가져오기 응용 기술 및 Microsoft 인증과 같은 Microsoft 자격 증명에 대한 목표를 설정하여 전문 지식을 구축합니다.
    운영 리소스 사용 Azure 관리 리소스를 참조하세요.
    제품 설명서 사용 Microsoft Learn을 사용하여 Azure 서비스에 대한 지침을 찾습니다.
    실습 경험하기 비프로덕션 샌드박스 환경에서 실습을 장려합니다.

Azure 관리 리소스

카테고리 관리 리소스 Description
Compliance CAF 거버넌스 Microsoft의 클라우드 거버넌스 프레임워크
Security 보안 작업 관리 보안 작업을 관리하기 위한 지침
Security Microsoft 보안 도구 Microsoft 및 Azure 보안 도구 목록
Security 워크로드 보안 보안에 대한 워크로드 지침
리소스 관리 명명 및 태그 지정 전략 리소스를 관리하기 위한 권장 사항 명명 및 태그 지정
리소스 관리 Azure 약어 Azure 리소스에 대한 약어 목록
리소스 관리 Azure Advisor Azure 모범 사례에 부합하는 디지털 도우미입니다.
리소스 관리 Azure 명명 규칙 모든 Azure 리소스에 대한 명명 규칙
리소스 관리 Azure 서비스 가이드 서비스 구성 결정에 대한 지침
발달 워크로드 소프트웨어 개발 소프트웨어 개발을 위한 워크로드 지침
발달 Azure 아키텍처 센터 다양한 사용 사례에 대한 아키텍처 및 가이드
발달 개발자 리소스 허브 개발자 도구 및 리소스를 위한 허브
배치 Bicep, Terraform 및 ARM 템플릿 모든 Azure 리소스에 대한 IaC 템플릿
배치 Azure 지역 쌍 Azure 쌍을 이루는 지역 목록
배치 Azure Cloud Services의 디렉터리 모든 Azure 서비스의 디렉터리
배치 워크로드 배포 연속 통합을 위한 워크로드 지침
모니터링 Azure 클라우드 자산 모니터링 포괄적인 Azure 모니터링 지침
모니터링 워크로드 모니터링 모니터링을 위한 워크로드 지침
비용 비용 관리 비용 관리 지침
비용 워크로드 비용 최적화 비용 최적화를 위한 워크로드 지침
Reliability 데이터 안정성 관리 데이터 안정성을 유지하기 위한 지침
Reliability 클라우드 리소스 안정성 관리 리소스 안정성을 유지하기 위한 지침
Reliability 보안 인시던트 관리 보안 인시던트에 대응하기 위한 권장 사항
Performance 워크로드 성능 효율성 성능 효율성을 위한 워크로드 지침

다음 단계