본문 바로가기

인공지능

잇따른 장애 이후, Amazon이 AI 지원 코드 변경에 ‘시니어 승인’을 의무화한 이유

728x90
반응형
728x170

최근 몇 달 사이 AI 코딩 도구를 활용한 코드 변경이 실제 서비스 장애로 이어지는 사례가 잇따르면서, AI 도입의 편의성과 운영 리스크 사이의 균형이 중요한 화두로 떠올랐습니다.
이번 글에서는 **Amazon**이 연속적인 서비스 장애 이후 어떤 문제를 인식했고, 왜 AI 지원 코드 변경에 시니어 엔지니어 승인 절차를 의무화하게 되었는지를 정리합니다. 이를 통해 AI 코딩 도구가 가진 한계와, 실제 운영 환경에서 필요한 관리·통제 포인트를 함께 살펴봅니다.

반응형

연속된 서비스 장애, 무엇이 문제였나

Amazon 내부 문서와 보도에 따르면, 최근 발생한 장애들의 공통된 특징은 GenAI 기반 코드 변경이 프로덕션 환경에 직접 반영되었다는 점입니다.

Amazon 쇼핑 서비스 장애

  • 이달 초 Amazon 웹사이트와 쇼핑 앱이 약 6시간 동안 중단
  • 고객은 거래 완료, 계정 정보 확인, 상품 가격 조회가 불가능
  • 원인은 잘못된 소프트웨어 코드 배포

AWS에서 발생한 AI 관련 장애

  • AWS 내부에서도 AI 코딩 어시스턴트 사용 중 사고 발생
  • AI 코딩 도우미 Kiro가 환경을 삭제 후 재생성하도록 판단
  • 그 결과 비용 계산기 서비스가 13시간 동안 중단
  • Amazon은 일부 지역·제한된 서비스에 국한된 사건이라고 설명했지만, AI 도구의 자동 판단이 운영 환경에 미치는 영향이 명확히 드러난 사례로 평가됨

Amazon 내부 진단: “아직 확립되지 않은 GenAI 활용”

Amazon은 연속적인 장애 이후 대규모 엔지니어 회의를 소집해 원인을 분석했습니다.
내부 브리핑 노트에서 반복적으로 언급된 키워드는 다음과 같습니다.

  • High blast radius 사고 증가
    → 한 번의 변경이 대규모 서비스에 영향을 주는 사고가 늘어남
  • GenAI 지원 변경이 주요 기여 요인
  • 베스트 프랙티스와 안전장치가 아직 완전히 확립되지 않은 상태에서의 AI 활용

전자상거래 부문 시니어 부사장 Dave Treadwell 역시 이메일에서

“최근 사이트와 인프라의 가용성이 좋지 않았다”
라고 직접적으로 언급하며 문제의 심각성을 인정했습니다.


핵심 대응: AI 지원 코드 변경에 시니어 승인 의무화

Amazon이 즉각적으로 도입한 핵심 조치는 명확합니다.

변경된 승인 절차

  • 주니어·미드레벨 엔지니어가 수행하는 모든 AI 지원 코드 변경
  • 시니어 엔지니어의 사전 서명 승인 필수
  • 특히 프로덕션 환경에 영향을 줄 수 있는 변경에 엄격 적용

이는 AI 코딩 도구 자체를 제한하기보다는,
“AI + 인간의 최종 책임” 구조를 강화하는 방향에 가깝습니다.

Amazon은 이 조치를 “정상적인 비즈니스 검토 과정의 일부”라고 설명하며,
AI 도입을 멈추기보다는 운영 안전성을 높이는 쪽으로 제도화하겠다는 입장을 밝혔습니다.


운영 개선을 위한 추가 조치들

승인 절차 강화 외에도 Amazon은 다음과 같은 개선을 병행하고 있습니다.

  • 주간 기술 회의 ‘This Week in Stores Tech (TWiST)’
    → 기존 선택 참석에서 전 직원 참석 권장으로 변경
  • 웹사이트 가용성 및 운영 성과 점검의 정례화
  • AI 코딩 도구 사용 시 고위험 변경에 대한 가시성 강화

즉, 단순히 “누가 승인하느냐”를 넘어
조직 전체가 AI 변경의 리스크를 인지하도록 구조를 바꾸는 것이 핵심입니다.


인력 감축과 장애 증가 논란

한편, 일부 엔지니어들은 인력 감축 이후 Sev2급(중간 수준) 장애가 증가했다고 지적했습니다.

  • Financial Times 보도에 따르면
    Amazon은 최근 몇 년간 여러 차례 구조조정을 단행
  • 2026년 1월에만 약 16,000개의 기업 직무 감축

다만 Amazon은

“인력 감축이 장애 증가의 원인이라는 주장에는 동의하지 않는다”
는 입장을 유지하고 있습니다.

이 논란은 AI 도입, 자동화, 인력 구조 변화가 운영 안정성과 어떻게 연결되는지를 보여주는 또 다른 논점입니다.


이 사례가 주는 시사점

이번 Amazon의 결정은 단순한 내부 정책 변경이 아니라, AI 시대의 운영 원칙을 잘 보여주는 사례입니다.

핵심 시사점 정리

  • AI 코딩 도구는 생산성을 높이지만, 운영 리스크를 자동으로 줄여주지는 않는다
  • 특히 프로덕션 환경에서는
    “AI가 제안하고, 사람이 책임진다”는 구조가 필수
  • 승인 절차, 리뷰 문화, 책임 주체 명확화는
    AI 도입이 성숙 단계로 가기 위한 필수 조건

728x90

AI 도입의 다음 단계는 ‘통제와 신뢰’

Amazon의 이번 조치는
“AI를 얼마나 빨리 쓰느냐”보다
“AI를 얼마나 안전하게 운영하느냐”가 더 중요해지는 단계에 접어들었음을 보여줍니다.

앞으로 AI 코딩 도구는 더 똑똑해질 것입니다.
하지만 그만큼 인적 검증, 승인 체계, 운영 가드레일의 중요성도 함께 커질 수밖에 없습니다.

이번 사례는 모든 IT 조직에 하나의 질문을 던집니다.

당신의 조직은 AI가 만든 코드에, 누가 최종 책임을 지고 있나요?

300x250

https://arstechnica.com/ai/2026/03/after-outages-amazon-to-make-senior-engineers-sign-off-on-ai-assisted-changes/

 

Amazon holds engineering meeting following AI-related outages

Ecommerce giant says there has been a ‘trend of incidents’ linked to ‘Gen-AI assisted changes’

www.ft.com

728x90
반응형
그리드형