
이 글은 AutoBE와 Claude Code를 직접 개발한 3세대 코딩 에이전트 개발자의 시선에서, 두 AI 코딩 에이전트의 내부 구조와 설계 철학을 비교·분석한 기술 리뷰입니다.
특히 최근 발생한 Claude Code 소스 코드 유출 사건을 계기로, 2세대 AI 코딩 에이전트와 3세대 AI 코딩 에이전트의 본질적인 차이, 그리고 왜 AutoBE가 전혀 다른 방향의 설계를 선택했는지를 기술적으로 정리합니다.
이 글을 통해 독자는 단순한 도구 비교를 넘어, AI가 코드를 “도와주는 단계”에서 “책임지고 만들어내는 단계”로 어떻게 진화하고 있는지를 이해할 수 있습니다.
Claude Code 소스 코드 유출 사건 개요
2026년 4월, Anthropic 내부 엔지니어의 npm 배포 실수로 **Claude Code 전체 소스 코드(약 51만 라인)**가 외부에 공개되는 사건이 발생했습니다.
비록 수 시간 내 패키지는 삭제됐지만, 이미 많은 개발자들이 코드를 분석했고 커뮤니티에는 내부 아키텍처, 시스템 프롬프트, 보안 구조까지 상세히 공유되었습니다.
이 사건은 단순한 해프닝이 아니라, 현존 최강 AI 코딩 에이전트의 실제 설계 철학을 들여다볼 수 있는 드문 기회였습니다.
AutoBE란 무엇인가
AutoBE는 요구사항 한 줄만 입력하면 다음을 자동으로 생성하는 오픈소스 백엔드 AI 에이전트입니다.
- 요구사항 분석(SRS)
- 데이터베이스 스키마
- OpenAPI 명세
- E2E 테스트
- 실제 실행 가능한 NestJS 백엔드 코드
현재는 TypeScript / NestJS / Prisma 스택을 지원하며, 2026년 7월부터 타 언어 및 프레임워크 확장이 예정돼 있습니다.
핵심 차별점은 단 하나입니다.
LLM이 코드를 쓰지 않고, 컴파일러가 코드를 쓴다는 점입니다.
AutoBE의 핵심 설계: Function Calling + 컴파일러
LLM은 “자유롭게 쓰지 않는다”
기존 AI 코딩 도구는 LLM에게 “코드를 작성하라”고 요청하고, 생성된 텍스트를 파일로 저장합니다.
AutoBE는 이 방식을 구조적으로 배제합니다.
- LLM은 JSON Schema(AST) 형태의 구조만 채움
- 컴파일러가 이를 검증하고 실제 코드로 변환
- 잘못되면 자동으로 다시 생성 (Self-correction loop)
즉, 프롬프트가 아니라 타입과 스키마가 제약 조건이 됩니다.
왜 백엔드에는 자유도가 위험한가
백엔드는 창의성이 아니라 정합성과 정확성의 영역입니다.
- API 타입 하나만 어긋나도 모든 클라이언트가 깨짐
- FK 하나 누락되면 데이터 무결성 붕괴
- 400개 API 중 하나라도 실패하면 서비스 전체가 실패
자유 텍스트 생성 방식에서는 다음 문제가 발생합니다.
복합 실패의 수학적 현실
API 성공률이 95%라면:
- 400개 API 전체 성공 확률 ≈ 0%
- 99%여도 1.8%
- 100%만이 유일한 해답
이 문제는 모델 성능 문제가 아니라 아키텍처 문제입니다.
Function Calling이 해결한 것
1. 금지가 아니라 “부재”
“varchar를 쓰지 마세요”라는 프롬프트는 오히려 그 가능성을 높입니다.
AutoBE는 아예 선택지에서 제거합니다.
- 허용 타입: boolean, int, double, string, uri, uuid, datetime
- varchar는 존재하지 않음 → 생성 불가능
2. 변동성 제거
모델이 달라도 결과는 동일합니다.
- Claude, GPT, Qwen → 동일한 구조
- 다시 실행해도 동일한 결과
- 모델 성향이 결과에 영향을 주지 않음
3. 6.75% → 100%를 만든 Harness
복잡한 중첩 스키마에서 Function Calling은 업계에서 “불가능”하다고 여겨졌습니다.
AutoBE는 Function Calling Harness를 통해 이를 해결했습니다.
- parse(): 깨진 JSON 자동 복구
- validate(): 타입·제약 조건 검증
- stringify(): 오류 위치를 정확히 표시해 피드백
LLM은 전체를 다시 쓰지 않고 표시된 오류만 수정하면 됩니다.
Claude Code의 설계 철학 (2세대)
Claude Code는 **“인간을 돕는 시니어 개발자”**에 가깝습니다.
- while(true) 루프 기반
- 40개 이상의 도구를 LLM이 자율 선택
- 파일 탐색, 디버깅, 리팩토링에 최적
- 인간이 검증 주체
강점은 유연성, 약점은 대규모 정합성 보장 불가입니다.
AutoBE의 설계 철학 (3세대)
AutoBE는 **“자급자족 백엔드 공장”**입니다.
- 42개 전문 에이전트
- 5단계 워터폴 파이프라인
- 컴파일러가 검증 주체
- 인간 개입 없이 100% 컴파일 성공 목표
인간은 요구사항만 말하고, 정합성은 기계가 책임집니다.
2세대와 3세대의 본질적 차이
| 구분 | 2세대 (Claude Code) | 3세대 (AutoBE) |
| 주 역할 | 보조자 | 생성자 |
| 검증 주체 | 인간 | 컴파일러 |
| 오류 발견 | 사용자가 발견 | 기계가 발견 |
| 제약 방식 | 프롬프트 금지 | 스키마 부재 |
| 신뢰성 | 0.95ⁿ → 0 | 1.0ⁿ = 1 |
경쟁이 아닌 공존의 미래
이 글의 결론은 단순합니다.
- 초기 전체 생성: AutoBE
- 유지보수·변경·디버깅: Claude Code
400개 API를 처음부터 만드는 순간은 단 한 번입니다.
그 이후는 1~5개 API만 바뀌는 유지보수의 연속입니다.
구조에는 엄격함이, 변화에는 유연함이 필요합니다.
- 0에서 80은 모델이 해결
- 80에서 100은 구조와 검증이 해결
- 프롬프트와 워크플로우만으로는 100%에 도달할 수 없음
- 결정적 검증 장치(컴파일러, 시뮬레이터, 포멀 베리파이어)가 있는 영역에서 3세대 패턴은 재현 가능
백엔드뿐 아니라, 회로 설계, 스마트 컨트랙트, 구조 해석, 신약 설계 등
결정론적 검증이 가능한 모든 도메인에서 이 패턴은 확장될 수 있습니다.
이 글의 핵심 메시지는 분명합니다.
AI가 생각하는 시대는 끝났고, 이제는 AI가 증명해야 하는 시대입니다.
AutoBE vs. Claude Code: 3rd-gen coding agent developer's review of the leaked source code
TL;DR Claude Code—source code leaked via an npm incident while(true) + autonomous selection of...
dev.to

'인공지능' 카테고리의 다른 글
| GLM-5.1 로컬 실행 가이드: 대규모 언어 모델을 내 PC에서 사용하는 방법 (0) | 2026.04.09 |
|---|---|
| AI 시스템이 선호하는 콘텐츠 설계 방법: 검색과 노출을 바꾸는 구조의 힘 (0) | 2026.04.09 |
| 대규모 언어 모델은 감정을 느끼는가? 내부 메커니즘을 분석하고 제어하는 최신 연구 정리 (0) | 2026.04.08 |
| Anthropic Project Glasswing과 Claude Mythos 제한 공개가 의미하는 것 (0) | 2026.04.08 |
| Claude Code 유출로 본 에이전틱 하네스 설계 패턴 12가지 정리 (0) | 2026.04.08 |