본문 바로가기

인공지능

Codex 기반 자가 개선형 Tax AI 에이전트 구축 사례 정리

728x90
반응형
728x170

이 글은 OpenAI와 Thrive Holdings가 실제 회계 현장에서 Codex 기반 자가 개선(Self-improving) 에이전트를 어떻게 설계하고 운영했는지를 다룹니다.
단순히 “세무 자동화 AI를 만들었다”는 이야기가 아니라, 실제 프로덕션 환경에서 발생하는 실패를 어떻게 구조화된 학습 신호로 전환하고, 그 신호를 다시 AI 개선으로 연결했는지에 초점을 맞춘 사례입니다. 특히 세무 전문가(Practitioner)의 개입, 프로덕션 트레이스, Codex 중심의 반복 개선 루프가 어떤 방식으로 결합됐는지를 정리합니다.

반응형

Tax AI 프로젝트의 배경과 문제 정의

현실의 시스템은 실험실 환경과 다르게 동작합니다. 출시 전에는 보이지 않던 에지 케이스가 프로덕션에서 쏟아지고, 문제를 발견한 뒤에는 사람이 직접 로그를 보고, 프롬프트를 고치고, 코드를 수정해야 했습니다. 이 과정은 느리고, 엔지니어가 개입할 때만 개선이 일어나는 구조였습니다.

OpenAI와 Thrive Holdings는 이런 한계를 자가 개선이 가능한 에이전트 구조로 해결하고자 했습니다. 이를 위해 회계 네트워크를 운영하는 Crete와 협업해 실제 세무 업무 한가운데서 Tax AI를 공동 개발했습니다.

Crete 소속 30개 이상의 회계 법인은 매 시즌 수만 건의 세금 신고서를 처리합니다. 중간 이상 복잡도의 신고서만 해도 데이터 입력에 최대 8시간이 걸리며, 문서는 스캔본, 이메일, 스프레드시트 등 매우 비정형적입니다. 이 병목을 해결하는 것이 프로젝트의 출발점이었습니다.


Tax AI가 해결한 핵심 과제

Tax AI는 개인 소득세 신고서(1040, 1041)를 중심으로 다음을 자동화했습니다.

  • 원본 문서 업로드 및 정리
  • 세무 필드 추출 및 근거(출처) 보존
  • 세무 엔진 제출용 초안 생성
  • 회계사의 검토 및 수정 지원

그 결과,

  • 세무 준비 시간 약 33% 절감
  • 필드 기준 최대 97% 정확도
  • 전체 처리량 약 50% 증가
    라는 성과를 달성했습니다.

하지만 더 중요한 점은 시간이 지날수록 시스템이 스스로 더 나아졌다는 점입니다.


측정 가능한 자가 개선 성과

Tax AI의 성능은 “수정 없이 완료되는 필드 비율”로 측정됐습니다.

  • 출시 초기: 75% 이상 필드 완성률을 달성한 신고서는 약 25%
  • 6주 후: 동일 기준에서 86%까지 상승
  • 90%, 100% 완성률 구간에서도 빠른 개선 추세 확인

초기에는 W-2, 1099 같은 단순 문서 위주였지만, 이후 K-1, 임대 부동산(Schedule E) 등 복잡한 영역으로 확장하면서 더 많은 시간 절감 효과를 만들어냈습니다.


자가 개선을 가능하게 한 3가지 핵심 설계

1. 실무 전문가와의 밀착 협업

어떤 오류가 “중요한 실패”인지 판단하는 것은 엔지니어가 아니라 실제 업무를 수행하는 회계사였습니다. 회계사의 직관과 판단이 학습 방향을 결정하는 나침반 역할을 했습니다.

2. 프로덕션이 증거를 남기도록 설계

입력과 출력만 저장하는 것이 아니라,

  • 원본 문서
  • 추출된 필드와 출처
  • 세무 엔진 매핑 과정
  • 회계사의 수정 내용
    까지 전 과정을 프로덕션 트레이스로 기록했습니다.

이 덕분에 “어디서, 왜, 어떻게 실패했는지”를 명확히 분석할 수 있었습니다.

3. Codex 기반 반복 개선 루프

구조화된 실패 신호는 곧바로 Codex가 다룰 수 있는 명확한 평가(evaluation) 과제로 전환됐습니다. Codex는 다음을 수행했습니다.

  • 실패 원인 분석 (추출, 매핑, 스키마, 그레이더 문제 등)
  • 제한된 코드 영역에서 수정 제안
  • 타겟 평가 + 회귀 테스트 실행
  • 검토 가능한 변경안(PR) 제시

이 과정으로 사람 중심의 수동 개선 루프AI 중심의 반자동 개선 루프로 전환됐습니다.


임대 부동산(Schedule E) 사례로 본 개선 흐름

임대 부동산 소득은 문서 형태가 제각각이고, 필드 간 연관성이 복잡해 자동화 난이도가 매우 높습니다.

  1. 회계사가 “임대 일수(fair rental days)”를 반복적으로 수정
  2. 시스템이 수정 전/후 차이를 필드 단위로 기록
  3. 유사한 실패를 그룹화해 반복 패턴 도출
  4. 해당 패턴을 Codex 평가 타겟으로 변환
  5. Codex가 추출 스키마, 매퍼, 소스 선택 로직을 점검 및 개선
  6. 평가 통과 후 프로덕션 반영

이렇게 하나의 실무 수정이 시스템 개선으로 연결되는 루프가 완성됐습니다.


Codex 작업 환경의 구조적 특징

Codex는 무작정 전체 코드를 수정하지 않습니다.

  • 수정 가능한 작업 공간과
  • 읽기 전용 프로덕션 증거
    를 명확히 분리한 환경에서 동작합니다.

이를 통해 Codex는 실제 실패 맥락을 충분히 이해하면서도, 안전하게 제한된 영역만 개선할 수 있었습니다. 이 구조 덕분에 반복 개선이 가능해졌습니다.


다른 도메인으로의 확장 가능성

임대 부동산 영역에서 약 6주간의 집중 개선으로 90% 이상의 정확도를 달성했고, 이 과정에서 만들어진 평가 방식과 추상화는 Schedule C, Schedule A 같은 다른 복잡한 세무 영역으로 확장되고 있습니다.

현재 이 구조는 세무를 넘어 회계, 감사, IT 헬프데스크 자동화 등 Thrive Holdings 내부의 다양한 업무 영역으로 확장 중입니다.


728x90

이 사례가 보여주는 핵심은 명확합니다.

  • 최고의 데이터는 현장에서 생성되는 사람의 작업
  • 개선 가능한 AI는 실패를 증거로 남기는 제품 설계에서 시작
  • Codex는 단순 코딩 도구가 아니라 검증 가능한 개선 루프의 엔진

자가 개선형 에이전트는 사람을 대체하는 것이 아니라, 사람의 전문성을 학습 신호로 삼아 시간이 갈수록 더 신뢰받는 시스템으로 진화합니다.
Tax AI는 그 가능성을 실제 프로덕션에서 증명한 사례라고 볼 수 있습니다.

300x250

https://openai.com/index/building-self-improving-tax-agents-with-codex/

 

Building self-improving tax agents with Codex

See how OpenAI, Thrive, and Crete built a self-improving tax agent with Codex, automating filings, improving accuracy, and accelerating workflows.

openai.com

728x90
반응형
그리드형