본문 바로가기

인공지능

LLM 에이전트 스킬을 안정적으로 학습시키는 텍스트 최적화 방법, SkillOpt

728x90
반응형
728x170

이 글은 대규모 언어 모델(LLM) 에이전트에서 스킬(skill)을 어떻게 하면 더 안정적이고 재사용 가능하게 개선할 수 있는지에 대한 방법론인 SkillOpt를 정리한 글입니다. 기존의 수작업 기반 스킬 개선이나 한 번의 생성에 의존한 방식이 왜 한계를 가졌는지, 그리고 SkillOpt가 이를 어떻게 구조적으로 해결하는지를 기술적 배경부터 핵심 방법론, 성능 검증 결과까지 단계적으로 설명합니다. LLM 에이전트의 품질을 스킬 수준에서 체계적으로 높이고자 하는 독자라면 전체 흐름을 이해하는 데 도움이 될 것입니다.

반응형

기존 스킬 개선 방식의 한계와 문제 인식

LLM 에이전트에서 스킬은 보통 자연어로 작성된 정책 문서 형태로 존재합니다. 문제는 이 스킬을 개선하는 방식이 대부분 다음 중 하나에 머물러 있었다는 점입니다.

  • 사람의 경험에 의존한 수작업 수정
  • 한 번의 생성으로 끝나는 one-shot 방식
  • 모델이 스스로 고쳐보도록 하는 느슨한 self-revision

이러한 방식들은 공통적으로 개선이 실제로 성능 향상으로 이어졌는지 검증하기 어렵고, 수정이 누적될수록 스킬의 일관성과 안정성이 무너지는 문제가 있었습니다. SkillOpt는 바로 이 지점에서 출발합니다. 스킬을 즉흥적으로 고치는 대상이 아니라, 훈련과 검증이 가능한 최적화 대상으로 재정의합니다.


SkillOpt의 기본 개념: 스킬을 외부 상태로 다루다

SkillOpt는 스킬을 에이전트 내부 로직이 아닌 동결된 에이전트 모델의 외부 상태(external state)로 취급합니다. 즉, 모델 가중치는 건드리지 않고, 스킬 문서 자체를 딥러닝의 가중치처럼 점진적으로 최적화합니다.

스킬은 에이전트 실행 전에 컨텍스트에 삽입되는 자연어 정책이며, 특정 모델, 하네스, 태스크 조합에서 실행되면 하나의 궤적과 0~1 사이의 점수를 생성합니다. SkillOpt의 목표는 훈련 데이터와 선택 데이터에서 성능이 검증된 스킬만을 누적해 최종 테스트 성능을 높이는 것입니다.


문제 설정과 데이터 분리 전략

SkillOpt는 데이터셋을 명확히 분리합니다.

  • 훈련 데이터셋(D_tr): 스킬 후보를 생성하기 위한 경험 수집용
  • 선택 데이터셋(D_sel): 스킬 수정이 실제로 개선인지 판단하는 게이트
  • 테스트 데이터셋(D_test): 최종 성능 보고 전용

이 구조 덕분에, 스킬 수정이 훈련 데이터에만 과적합되는 것을 방지하고, 실제로 일반화된 개선만 받아들일 수 있습니다.


전방 패스: 롤아웃으로 증거를 수집하다

각 최적화 단계에서 현재 스킬을 사용해 훈련 데이터에 대한 롤아웃을 수행합니다. 이 과정에서 다음과 같은 정보가 궤적으로 기록됩니다.

  • 태스크 메타데이터
  • 메시지 흐름과 도구 호출
  • 관찰 결과와 모델 출력
  • 검증자 피드백

이 궤적은 단순 로그가 아니라, 스킬이 반복적으로 실패하거나 성공하는 패턴을 드러내는 증거로 활용됩니다.


후방 패스: 실패와 성공을 분리해 반영하다

옵티마이저 모델은 롤아웃 궤적을 분석해 스킬 수정 제안으로 변환합니다. 핵심은 성공과 실패를 분리해 다룬다는 점입니다.

  • 실패 사례에서는 누락된 규칙이나 잘못된 지침을 보완
  • 성공 사례에서는 이미 잘 작동하는 행동을 보존

각 제안은 add, delete, replace 형태의 구조화된 수정으로 생성되며, 여러 제안은 계층적으로 병합됩니다. 이때 실패를 해결하는 수정이 항상 우선됩니다.


제한된 텍스트 업데이트로 안정성 확보

SkillOpt는 한 번에 적용할 수 있는 수정 수를 수정 예산(edit budget)으로 제한합니다. 이는 딥러닝의 학습률과 유사한 역할을 하며, 스킬 문서가 한 번에 과도하게 변하는 것을 방지합니다.

옵티마이저는 수정 제안들을 예상 효용에 따라 정렬하고, 상위 일부만 선택합니다. 이를 통해 스킬의 연속성과 점진적 학습이 유지됩니다.


유효성 검사 게이트와 거부된 수정의 활용

모든 스킬 후보는 선택 데이터셋에서 평가됩니다. 이전 최고 성능을 엄격하게 초과하지 못하면 해당 수정은 즉시 거부됩니다.

거부된 수정은 버려지지 않고, 별도의 버퍼에 기록됩니다. 이 정보는 옵티마이저가 같은 실패를 반복하지 않도록 하는 음성 피드백으로 작동하며, 아직 해결되지 않은 실패에 집중하도록 유도합니다.


에포크 단위 메타 업데이트의 역할

빠른 수정이 개별 배치 수준의 학습이라면, 에포크 단위 메타 업데이트는 장기적인 흐름을 학습합니다. 에포크가 끝나면 이전 스킬과 현재 스킬을 비교해 다음과 같이 분류합니다.

  • 개선된 사례
  • 성능이 퇴보한 사례
  • 지속적으로 실패하는 패턴
  • 안정적으로 성공하는 패턴

이를 바탕으로 옵티마이저 전용 메타 지침이 생성되며, 향후 수정 방향을 안내합니다. 이 메타 정보는 배포 스킬에는 포함되지 않아, 실제 사용 스킬의 단순성과 안정성은 유지됩니다.


하네스에 종속되지 않는 재사용 구조

SkillOpt는 경량 어댑터 인터페이스를 통해 다양한 하네스에서 동일한 방식으로 동작합니다. 한 번 최적화된 스킬은 특정 모델이나 실행 환경에 묶이지 않고, 관련 태스크 전반에 걸쳐 재사용될 수 있습니다.

실제로 SkillOpt는 6개 벤치마크, 7개 타겟 모델, 3가지 실행 환경에서 모든 평가 셀에서 최고 성능을 기록하며 이 재사용성을 실증했습니다.


728x90

SkillOpt는 스킬을 즉흥적으로 고치는 대상이 아니라, 검증 가능한 훈련 산출물로 다루는 새로운 패러다임을 제시합니다. 제한된 수정, 엄격한 검증 게이트, 실패 이력의 체계적 활용을 통해 스킬 최적화를 안정적인 학습 루프로 전환했습니다.

이 접근은 모델 가중치를 바꾸지 않고도 에이전트 성능을 지속적으로 향상시킬 수 있다는 점에서 실용적이며, 향후 LLM 에이전트 개발에서 스킬을 독립적인 자산으로 관리하고 재사용하는 방향을 강화할 것으로 기대됩니다.

300x250

https://arxiv.org/abs/2605.23904

 

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We

arxiv.org

728x90
반응형
그리드형