본문 바로가기

인공지능

Agentar-Scale-SQL: Orchestrated Test-Time Scaling 기반 Text-to-SQL 성능 혁신

728x90
반응형
728x170

Agentar-Scale-SQL은 자연어를 SQL로 변환하는 Text-to-SQL 분야에서 성능을 크게 끌어올린 새로운 프레임워크입니다. 특히 Orchestrated Test-Time Scaling 전략을 적용해, 기존 대규모 언어 모델의 한계를 보완하고 사람 전문가 수준에 근접하는 실행 정확도를 달성한 것이 특징입니다.

이 글에서는 Agentar-Scale-SQL의 핵심 개념과 구조, 성능 지표, 주요 구성 요소, 사용 방법, 그리고 실제 제품 확장 사례까지 체계적으로 정리합니다. Text-to-SQL 기술의 현재 위치와 앞으로의 가능성을 함께 살펴보겠습니다.

반응형

1. Agentar-Scale-SQL 개요

Agentar-Scale-SQL은 확장 가능한 계산 전략을 기반으로 Text-to-SQL 성능을 향상시키는 프레임워크입니다.

기존 접근 방식은 단일 모델의 추론 능력에 크게 의존하는 반면, Agentar-Scale-SQL은 다음과 같은 특징을 갖습니다.

  • 테스트 시점에서 계산 자원을 전략적으로 확장
  • 서로 다른 세 가지 관점을 결합하는 오케스트레이션 구조
  • 후보 SQL 생성 및 선택 과정을 모듈화

이를 통해 단순 생성이 아닌, 생성 → 검증 → 정제 → 선택의 다단계 파이프라인을 구성합니다.


2. Orchestrated Test-Time Scaling 전략

Agentar-Scale-SQL의 핵심은 Orchestrated Test-Time Scaling입니다.

2.1 개념 설명

Test-Time Scaling은 학습이 아닌 추론 시점에서 계산을 확장하여 성능을 개선하는 접근입니다.

Agentar-Scale-SQL은 다음을 결합합니다.

  • 다양한 SQL 후보 생성
  • 추론 기반 재검증
  • 반복적 정제(Iterative Refinement)
  • 최적 SQL 선택(Selection Module)

즉, 한 번에 정답을 맞히는 방식이 아니라, 여러 후보를 생성한 뒤 가장 신뢰도 높은 결과를 선택하는 구조입니다. 이는 복잡한 데이터베이스 질의에서 특히 강점을 보입니다.


3. 성능 비교 및 벤치마크 결과

Agentar-Scale-SQL은 BIRD 리더보드에서 81.67% 실행 정확도(EX Test)를 달성하며 1위를 기록했습니다.

주요 성능 지표

  • EX (Dev): 74.90
  • EX (Test): 81.67
  • R-VES: 77.00%

다른 방법들과 비교해도 높은 실행 정확도를 보이며, 특히 실제 실행 기반 평가에서 안정적인 결과를 나타냅니다.

이는 단순 문법적 정확도가 아니라, 실제 데이터베이스에서 올바르게 실행되는 SQL을 생성한다는 점에서 의미가 큽니다.


4. 시스템 구성 요소

프로젝트 구조는 다음과 같이 구성되어 있습니다.

4.1 Core 디렉토리

  • ScaleSQL/: 핵심 소스 코드
  • workflows/: 주요 실행 워크플로우
  • config/: 설정 파일

4.2 주요 모듈

  • Light Schema Engine
    경량화된 스키마 표현을 생성하여 모델 입력 부담을 줄입니다.
  • Offline Data Preprocessing Pipeline
    학습 및 추론에 필요한 데이터 전처리를 수행합니다.
  • Task Understanding
    자연어 질의의 의도를 구조적으로 분석합니다.
  • SQL Candidate Generation
    ICL Generator 및 Reasoning Generator 기반 후보 SQL 생성
  • Iterative Refinement
    반복 정제를 통해 후보 SQL 품질 개선
  • SQL Selection Module
    최종 실행 정확도가 가장 높은 SQL을 선택

이처럼 모듈화된 구조는 유지보수와 확장성 측면에서도 유리합니다.


5. 설치 및 사용 방법

Agentar-Scale-SQL은 다음 단계로 실행할 수 있습니다.

5.1 가상 환경 생성

conda create -n ScaleSQL python=3.10
conda activate ScaleSQL

5.2 PyTorch 설치

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121

5.3 프로젝트 의존성 설치

pip install -r requirements.txt

5.4 vLLM 설치 (추론 가속)

pip install https://github.com/vllm-project/vllm/releases/download/v0.8.5.post1/vllm-0.8.5.post1+cu121-cp38-abi3-manylinux1_x86_64.whl

5.5 임베딩 모델 다운로드

modelscope download --model sentence-transformers/all-MiniLM-L6-v2 --local_dir ./ScaleSQL/model/all-MiniLM-L6-v2

6. 데이터 전처리 파이프라인

6.1 Light Schema 생성

python -m ScaleSQL.workflows.schema_generation --evaluation_type test

결과 예시:

.ScaleSQL/dataset/bird_test_light_schema.json

6.2 학습 예제 벡터 DB 저장

ANONYMIZED_TELEMETRY=False python -m ScaleSQL.workflows.train_skeleton_process

6.3 데이터베이스 셀 값 처리

ANONYMIZED_TELEMETRY=False python -m ScaleSQL.workflows.database_cell_process --evaluation_type test

6.4 BM25 인덱스 및 DDL 스키마 생성

bash ddl_schema.sh

이 과정을 통해 검색 기반 보강과 스키마 기반 추론이 함께 동작하게 됩니다.


7. 모델 및 코드 릴리스 로드맵

Agentar-Scale-SQL은 다음과 같은 계획을 갖고 있습니다.

  • 논문 arXiv 공개
  • Generation-32B 모델 공개
  • Selection-32B 모델 공개
  • Light Schema Engine 코드 공개
  • SQL 후보 생성 및 정제 모듈 공개

이는 연구 프레임워크를 넘어 실제 산업 적용을 염두에 둔 전략으로 해석할 수 있습니다.


8. 확장 사례: Data Agent (ChatBI 제품)

Agentar-Scale-SQL의 기술은 실제 제품으로도 확장되고 있습니다.

Data Agent는 자연어 기반 ChatBI 솔루션으로, 사용자가 영어로 질문하면 복잡한 SQL을 자동으로 생성해 결과를 제공합니다.

특징:

  • 코드 작성 불필요
  • 자연어 질의 기반 분석
  • 복잡한 데이터도 대화형으로 탐색

이는 Text-to-SQL 기술이 단순 연구 단계를 넘어 비즈니스 의사결정 도구로 진화하고 있음을 보여줍니다.


728x90

Agentar-Scale-SQL은 단일 모델 중심 접근에서 벗어나, 추론 시점 계산 확장을 통해 성능을 개선한 구조적 혁신 사례입니다.

특히 다음과 같은 점에서 의미가 있습니다.

  • 실행 정확도 중심의 평가
  • 다단계 SQL 생성 및 선택 구조
  • 모듈화된 확장 가능 아키텍처
  • 실제 제품으로의 확장 가능성 입증

앞으로 Text-to-SQL 기술은 단순 질의 변환을 넘어, 기업 데이터 접근의 핵심 인터페이스로 자리 잡을 가능성이 큽니다.

Agentar-Scale-SQL은 그 전환점에서 중요한 기술적 이정표가 되는 프레임워크라 할 수 있습니다.

300x250

https://github.com/antgroup/Agentar-Scale-SQL

 

GitHub - antgroup/Agentar-Scale-SQL: Agentar-Scale-SQL is a novel framework that leverages scalable computation to significantly

Agentar-Scale-SQL is a novel framework that leverages scalable computation to significantly improve Text-to-SQL performance. - antgroup/Agentar-Scale-SQL

github.com

728x90
반응형
그리드형