Azure SRE 에이전트는 조직의 요구에 맞는 지능형 운영 하위 에이전트를 설계, 구성 및 확장하는 데 도움이 되는 스바겐트 작성기를 제공합니다. 스바겐트 작성기를 사용하면 데이터 원본을 원활하게 통합하고, 기술 자료를 관리 및 보강하며, 특수한 스바겐트를 만들고, 트리거 및 예약된 작업을 사용하여 워크플로를 자동화할 수 있습니다. 이 문서에서는 SRE(사이트 안정성 엔지니어링) 작업에 대한 스바겐트 작성기의 가치를 최대화하는 데 도움이 되는 일반적인 시나리오 및 구성 패턴을 살펴봅니다.
사용자 고유의 데이터 원본 가져오기(관찰 도구)
하위 에이전트 작성기를 사용하면 기존 관찰성 인프라를 연결하여 스바겐트의 기능을 향상시킬 수 있습니다.
지원되는 데이터 커넥터
SRE 에이전트는 스바겐트 작성기와 인터페이스하는 다음 데이터 커넥터를 지원합니다.
- MCP(모델 컨텍스트 프로토콜): 외부 데이터 원본 및 API에 연결합니다.
- Microsoft Teams: Teams 채널에 메시지를 게시합니다.
- Outlook: 전자 메일 알림을 보냅니다.
구성 프로세스
다음 단계를 따르십시오. 서브에이전트를 구성합니다.
데이터 커넥터로 이동합니다.
서브에이전트 빌더에서 [설정 > 커넥터 ] 탭을 선택합니다.
커넥터 유형을 선택합니다.
사용 가능한 커넥터 옵션 중에서 선택합니다.
연결 세부 정보를 제공합니다.
연결 문자열, 인증 자격 증명 및 범위 설정을 입력합니다.
연결을 테스트합니다.
저장하기 전에 연결 및 사용 권한의 유효성을 검사합니다.
하위 대리인과 연관됩니다.
운영 포커스에 따라 데이터 소스를 특정 서브에이전트에 연결합니다.
파일 업로드 및 기술 자료 관리
문서, Runbook 및 가이드라인을 업로드함으로써 하위 에이전트의 지식을 향상시킬 수 있습니다.
다음은 에이전트에 추가할 수 있는 파일 예제의 짧은 목록입니다.
아키텍처 또는 시스템 디자인: 시스템 구성 요소 및 데이터 흐름을 설명하는 다이어그램 및 설명서입니다.
문제 해결 가이드: 일반 또는 되풀이 문제를 진단하고 해결하기 위한 단계별 지침입니다.
Runbook 및 SOP(표준 운영 절차) : 일상적인 작업, 유지 관리 및 인시던트 대응에 대한 자세한 워크플로입니다.
인시던트 보고서 및 사후 분석: 근본 원인 분석 및 학습된 교훈을 포함하여 과거 중단에 대한 설명서입니다.
릴리스 정보 및 변경 로그: 새 기능, 버그 수정 및 변경 내용을 포함한 제품 또는 서비스 업데이트 요약입니다.
이러한 유형의 파일은 스바겐트가 정확하고 상황에 맞는 응답을 제공하고 운영 작업을 보다 효과적으로 자동화하는 데 도움이 됩니다.
지원되는 파일 형식
Markdown(.md) 또는 텍스트(.txt) 형식의 운영 절차가 있을 수 있습니다.
파일 관리 워크플로
기술 자료 파일 설정 > 탭으로 이동하여 기술 > 자료에 액세스합니다.
파일을 끌어 놓거나 파일 탐색을 통해 업로드하세요(파일당 최대 50MB).
더 나은 검색을 위해 태그 및 설명을 추가하여 콘텐츠를 구성합니다.
특정 기술 자료에 액세스할 수 있는 하위 에이전트를 구성하여 스바겐트 액세스를 사용하도록 설정합니다.
스바겐트가 응답에 업로드된 지식을 사용하는 방법을 추적하여 사용량을 모니터링합니다.
비고
업로드된 파일은 자동으로 인덱싱되고 스바겐트에서 검색할 수 있습니다. 시스템은 스바겐트 인스턴스당 최대 1,000개의 파일을 지원합니다.
서브 에이전트를 구축하세요
특정 운영 도메인이나 기술 분야에 중점을 둔 전문 서브에이전트를 만드세요.
서브에이전트 유형
특수한 스바젠트의 예는 다음과 같습니다.
데이터베이스 전문가: 데이터베이스 성능 및 연결 진단에 집중합니다.
네트워크 분석가: 연결 및 성능 문제를 전문으로 합니다.
보안 조사자: 보안 인시던트 및 규정 준수 검사에 대한 교육을 받았습니다.
애플리케이션 모니터: 특정 애플리케이션 스택 또는 프레임워크의 전문가.
서브에이전트 구성
목적 정의: 하위 대리인의 운영 초점과 전문 지식을 명확하게 정의합니다.
도구 선택: 스바겐트의 도메인에 대한 관련 시스템 도구 및 데이터 커넥터를 선택합니다.
지침 사용자 지정: 도메인별 지침 및 운영 절차를 제공합니다.
핸드오프 규칙 설정: 스바겐트가 인간 연산자 또는 기타 스바겐트로 에스컬레이션되는 방식을 구성합니다.
테스트 기능: 도메인별 시나리오에서 서브에이전트의 성능 유효성 검사
예제 스바겐트 구성:
agent:
name: "WebApp-Performance-Specialist"
description: "Specialized subagent for web application performance analysis"
instructions: |
You are a specialist in diagnosing web application performance and reliability issues.
Focus on HTTP response codes, memory usage patterns, and application dependencies
when investigating incidents.
tools:
- "AzureMonitorQuery"
- "HttpHealthCheck"
- "ResourceHealthStatus"
- "DeploymentHistory"
handoff_conditions:
- "Infrastructure-level issues requiring network analysis"
- "Database performance issues requiring specialized expertise"
- "Security incidents requiring specialized investigation"
확장 도구(기본 제공 데이터 커넥터 및 MCP 도구)
하위 에이전트의 기능을 운영 작업에 맞춰 포괄적인 도구 키트를 통해 확장하십시오.
기본 제공 시스템 도구
Azure 관련 도구:
리소스 관리: Azure 리소스 크기 조정, 다시 시작 및 구성
Azure Monitor 쿼리: Azure Monitor 로그 및 메트릭에 대해 쿼리 실행
상태 검사: 리소스 상태 및 가용성 상태 평가
배포 분석: 최근 변경 내용 및 배포 기록 검토
일반 운영 도구:
HTTP 요청: 엔드포인트 가용성 및 응답 시간 테스트
파일 작업: 구성 파일 및 로그 읽기
데이터 변환: 운영 데이터 처리 및 분석
알림 시스템: 경고 및 상태 업데이트 보내기
MCP(모델 컨텍스트 프로토콜) 통합
MCP를 사용하면 스바겐트가 Azure의 네이티브 기능을 넘어 외부 시스템 및 API와 연결할 수 있습니다.
MCP 연결 설정:
MCP 서버 구성: 외부 서비스 엔드포인트를 설정합니다.
인증: 필요한 자격 증명 및 액세스 토큰을 제공합니다.
도구 검색: MCP 서버에서 사용 가능한 도구 및 함수를 가져옵니다.
과제: MCP 도구를 특정 스바겐트와 연결합니다.
지원되는 MCP 시나리오
사용자 지정 API: 조직과 관련된 내부 도구 및 서비스입니다.
타사 통합: ServiceNow, Jira, Slack 및 기타 운영 도구.
특수 데이터베이스: 시계열 데이터베이스, 문서 저장소 및 분석 플랫폼.
모니터링 시스템: Grafana, Prometheus 및 사용자 지정 대시보드.
중요합니다
MCP 연결에는 적절한 네트워크 구성 및 인증이 필요합니다.
트리거(인시던트 및 예약된 작업)
지능형 트리거 메커니즘을 사용하여 운영 워크플로를 자동화합니다.
인시던트 발생 조건
특정 인시던트 조건이 만족될 때 다음 설정 옵션을 조정하여 하위 에이전트를 자동으로 활성화합니다.
플랫폼 통합: Azure Monitor, PagerDuty 또는 ServiceNow.
필터링 조건: 서비스 영향, 심각도 수준, 인시던트 유형 및 사용자 지정 일치 규칙입니다.
응답 타이밍: 인시던트 기간에 따라 즉각적인 활성화 또는 지연된 응답입니다.
에스컬레이션 경로: 자동화된 해결에 실패할 때 핸드오프 프로시저를 정의합니다.
인시던트 트리거 예:
trigger:
name: "High-CPU-Alert-Response"
platform: "AzureMonitor"
conditions:
- metric: "cpu_percent"
- threshold: "> 90%"
- duration: "5 minutes"
- service: "production-webapp"
response:
agent: "WebApp-Performance-Specialist"
mode: "review"
timeout: "30 minutes"
예약된 작업
자동으로 실행되는 되풀이 운영 활동을 만듭니다.
일정 유형:
Cron 식: 정확한 타이밍에 표준 cron 구문을 사용합니다.
사전 설정 간격: 매시간, 매일, 매주 또는 매월 실행.
자연어: 일반 영어로 일정을 설명합니다(예: "평일 오전 9시").
일반적인 예약된 작업 패턴:
상태 요약: 일일 환경 상태 보고서입니다.
규정 준수 검사: 주간 보안 및 정책 유효성 검사.
성능 검토: 월별 리소스 사용률 분석.
유지 관리 검사: 분기별 시스템 상태 평가.
예약된 작업 예:
scheduled_task:
name: "Daily-Environment-Health-Report"
schedule: "0 9 * * 1-5" # Weekdays at 9 AM
timezone: "UTC"
instructions: |
Generate a comprehensive health report covering:
- Resource utilization trends (CPU, memory, storage)
- Active alerts and their resolution status
- Recent deployment impacts on performance
- Recommendations for optimization
outputs:
- email: "ops-team@company.com"
- teams_channel: "operations-reports"