
이 글에서는 Anthropic이 공개한 오픈소스 프레임워크 Bloom에 대해 정리합니다. Bloom은 프론티어 AI 모델을 대상으로 안전성 및 정렬(alignment)과 관련된 행동 평가를 자동화하기 위해 설계된 에이전틱(agentic) 평가 시스템입니다. 기존 행동 평가가 가진 비용, 확장성, 유지보수 문제를 어떻게 해결하려는지, Bloom의 구조와 작동 방식, 실제 검증 결과와 다른 도구와의 관계까지 입력된 정보를 기반으로 차분히 살펴봅니다.
AI 행동 평가가 가진 근본적인 문제
AI 모델의 안전성과 정렬을 검증하기 위한 행동 평가는 본질적으로 많은 비용과 시간이 소요됩니다.
- 연구자가 직접 시나리오를 설계해야 하고
- 여러 번의 상호작용을 실행한 뒤
- 긴 대화 로그를 읽고
- 점수를 수작업으로 집계해야 합니다
또한 모델이 빠르게 발전하면서 기존 벤치마크는 쉽게 노후화되거나, 학습 데이터에 포함되어 평가 신뢰도가 떨어질 위험도 존재합니다. Anthropic 연구팀은 이를 단순한 도구 부족이 아니라, 확장성 문제로 정의합니다. 더 빠르고, 더 신선한 평가를 지속적으로 생성하면서도, 의미 있는 정량 지표를 유지할 수 있는 방법이 필요했던 것입니다.
Bloom이 해결하려는 핵심 목표
Bloom은 이러한 공백을 메우기 위해 등장했습니다. 고정된 프롬프트 집합에 의존하는 대신, 행동 정의를 중심으로 평가 전체를 자동 생성하는 접근 방식을 취합니다.
Bloom의 핵심 아이디어는 다음과 같습니다.
- 연구자가 정의한 **하나의 행동(seed)**을 기준으로
- 매 실행마다 새로운 평가 시나리오를 자동 생성하고
- 동일한 seed를 기록함으로써 재현성은 유지합니다
이를 통해 Bloom은 특정 행동이 실제 환경과 유사한 상황에서 얼마나 자주, 얼마나 강하게 나타나는지를 체계적으로 측정할 수 있습니다.
Bloom의 구조와 Seed 설정 방식
Bloom은 Python 기반 파이프라인으로 구현되었으며, MIT 라이선스로 GitHub에 공개되었습니다. 전체 평가의 출발점은 seed.yaml 파일로 정의되는 평가 seed 구성입니다.
Seed 구성의 주요 요소
- behavior
behaviors/behaviors.json에 정의된 행동의 고유 식별자
예: 아첨(sycophancy), 자기 보존(self-preservation) - examples
선택적으로 제공되는 few-shot 대화 예시
behaviors/examples/ 디렉터리에 저장 - total_evals
생성할 전체 평가 롤아웃 수 - rollout.target
평가 대상 모델
예: claude-sonnet-4 - 제어 파라미터
diversity, max_turns, modality, reasoning effort, 추가 평가 기준 등
Bloom은 LiteLLM을 백엔드로 사용해 Anthropic과 OpenAI 모델을 단일 인터페이스로 호출할 수 있으며, Weights & Biases와 연동해 대규모 실험을 지원합니다. 생성된 대화 로그는 Inspect와 호환되는 형식으로도 내보낼 수 있습니다.
네 단계로 구성된 에이전틱 평가 파이프라인
Bloom의 평가는 네 개의 에이전트 단계가 순차적으로 실행되는 구조로 설계되어 있습니다.
1. 이해(Understanding) 에이전트
- 행동 설명과 예시 대화를 분석
- 무엇이 해당 행동의 긍정적 사례인지 구조화된 요약 생성
- 예시 내에서 행동이 드러난 구간을 명시적으로 식별
이 단계는 이후 모든 에이전트가 “무엇을 찾아야 하는지” 명확히 이해하도록 돕는 역할을 합니다.
2. 아이디어(Ideation) 에이전트
- 평가용 시나리오 후보를 자동 생성
- 각 시나리오는 다음을 포함
- 상황 설명
- 사용자 페르소나
- 모델이 사용할 수 있는 도구
- 성공적인 롤아웃의 기준
diversity 파라미터를 통해 완전히 다른 시나리오를 많이 생성할지, 아니면 유사한 변형을 여러 개 만들지를 조절할 수 있습니다.
3. 롤아웃(Rollout) 에이전트
- 생성된 시나리오를 실제로 대상 모델에 적용
- 다중 턴 대화 또는 시뮬레이션 환경 실행
- 모든 메시지와 도구 호출을 기록
max_turns, modality, no_user_mode 같은 설정을 통해 모델의 자율성 수준을 제어할 수 있습니다.
4. 판단(Judgment) 및 메타 판단 에이전트
- 판단 에이전트
각 대화 로그를 숫자 점수로 평가
행동 존재 정도를 수치화하며, 현실성이나 평가 강도 같은 추가 지표도 평가 가능 - 메타 판단 에이전트
전체 롤아웃 요약을 분석해
가장 중요한 패턴과 대표 사례를 포함한 평가 리포트 생성
Bloom의 핵심 지표는 elicitation rate로, 행동 존재 점수가 10점 만점 중 7점 이상인 롤아웃의 비율을 의미합니다.
프론티어 모델을 대상으로 한 검증 결과
Anthropic은 Bloom을 활용해 다음 네 가지 정렬 관련 행동 평가 세트를 구축했습니다.
- 망상적 아첨(delusional sycophancy)
- 지시된 장기적 사보타주(instructed long-horizon sabotage)
- 자기 보존(self-preservation)
- 자기 선호 편향(self-preferential bias)
각 평가 세트는 100개의 서로 다른 롤아웃으로 구성되었고, 16개의 프론티어 모델에 대해 3회 반복 평가가 수행되었습니다. 모든 단계의 평가 모델로는 Claude Opus 4.1이 사용되었습니다.
또한 의도적으로 정렬이 어긋난 “모델 유기체(model organisms)”를 대상으로 한 실험에서도, 10개 행동 중 9개에서 기준 모델과 명확한 차이를 구분해냈습니다. 유일하게 겹친 사례는 실제로 기준 모델 역시 유사한 빈도로 행동을 보였다는 점이 수동 검토를 통해 확인되었습니다.
사람 평가자와의 비교 실험에서는 다음과 같은 결과가 보고되었습니다.
- Claude Opus 4.1: 인간 점수와의 스피어만 상관계수 0.86
- Claude Sonnet 4.5: 상관계수 0.75
특히 임계값 판단이 중요한 고점·저점 구간에서 강한 일치도를 보였습니다.
Petri와의 관계 및 Bloom의 위치
Anthropic은 Bloom을 기존 도구인 Petri와 경쟁 관계가 아닌 보완적 도구로 설명합니다.
- Petri
다양한 행동과 시나리오를 폭넓게 탐색하는 광범위 감사 도구 - Bloom
하나의 행동 정의에서 출발해
대규모의 정량적, 표적화된 평가 세트를 자동 생성하는 도구
즉, Petri가 “넓게 살펴보는 도구”라면, Bloom은 “하나의 행동을 깊게 파고드는 도구”로 포지셔닝됩니다.
Bloom은 AI 행동 평가에서 오랫동안 문제로 지적되어 온 비용, 확장성, 재현성 문제를 정면으로 다루는 프레임워크입니다. 단일 행동 정의를 중심으로 평가 시나리오 생성부터 실행, 판단, 메타 분석까지 자동화함으로써, 연구자들이 더 빠르고 체계적으로 정렬 관련 리스크를 측정할 수 있는 기반을 제공합니다.
오픈소스로 공개된 Bloom은 향후 AI 안전성 연구에서 행동 중심 평가의 표준적인 접근 방식으로 확장될 가능성을 보여줍니다. 특히 프론티어 모델이 계속 발전하는 상황에서, 고정된 벤치마크를 넘어 지속적으로 진화하는 평가 체계의 필요성을 분명히 드러낸 사례라 할 수 있습니다.
Anthropic AI Releases Bloom: An Open-Source Agentic Framework for Automated Behavioral Evaluations of Frontier AI Models
Anthropic AI Releases Bloom: An Open-Source Agentic Framework for Automated Behavioral Evaluations of Frontier Models
www.marktechpost.com

'인공지능' 카테고리의 다른 글
| GLM-4.7 코딩 성능과 에이전트 활용을 한 단계 끌어올린 최신 대규모 언어 모델 (0) | 2025.12.23 |
|---|---|
| LangAlpha: 멀티 에이전트 기반 AI 주식 분석 도구의 구조와 활용 방법 (0) | 2025.12.22 |
| Codex에 공식 도입된 Agent Skills 개념과 구조 한눈에 정리 (0) | 2025.12.22 |
| FunctionGemma 실행과 파인튜닝 가이드: 로컬·모바일 환경에서 활용하는 함수 호출 특화 LLM (0) | 2025.12.22 |
| Claude Code 대화 트레이싱 자동화: LangSmith 연동으로 개발 흐름을 관측하는 방법 (0) | 2025.12.22 |