
인공지능 모델의 경쟁은 점점 더 치열해지고 있습니다. 대규모 매개변수를 가진 초거대 모델들이 AI의 미래를 이끌고 있다는 인식이 강했지만, 알리바바가 이를 뒤집을 만한 성과를 내놓았습니다. 바로 **‘퉁이 딥리서치(Tongyi DeepResearch)’**라는 웹 기반 AI 에이전트입니다.
이 모델은 단지 300억(30B) 매개변수임에도 불구하고, 효율적인 전문가 혼합(MoE) 구조를 통해 오픈AI의 모델 성능을 넘어섰다는 평가를 받습니다. 게다가 완전 오픈소스로 공개되어 누구나 다운로드하고, 수정하며, 상업적으로 활용할 수 있다는 점에서 큰 주목을 받고 있습니다.
이번 글에서는 퉁이 딥리서치의 기술적 특징, 학습 방식, 주요 성능 지표, 그리고 왜 이 모델이 차세대 AI 경쟁의 핵심으로 불리는지 살펴보겠습니다.
퉁이 딥리서치란 무엇인가?
알리바바가 개발한 퉁이 딥리서치는 웹을 탐색하고, 심층 연구를 수행하며, 정확한 보고서와 자료를 작성할 수 있도록 설계된 AI 에이전트입니다.
특징적인 점은 다음과 같습니다:
- 30B 파라미터 모델: 대규모 모델보다 훨씬 작은 크기지만, MoE 구조를 통해 선택적으로 매개변수를 활성화하여 효율적으로 동작.
- 오픈소스: 허깅페이스(Hugging Face), 깃허브(GitHub), 모델스코프(ModelScope)를 통해 자유롭게 다운로드·수정·활용 가능.
- 자동화된 학습: 인간 라벨링 데이터 없이도 안정적인 시뮬레이션 환경에서 학습.
- 멀티 모드 추론 지원: 복잡한 연구 과제를 해결하기 위한 ReAct 모드와 Heavy 모드 제공.
성능 벤치마크: 오픈AI를 넘다
알리바바는 퉁이 딥리서치를 통해 다양한 벤치마크 테스트에서 기존 강자들을 넘어서는 성과를 보여주었습니다.
- 인류의 마지막 시험(HLE): 32.9점으로 오픈AI ‘o3’를 제치고 1위
- BrowseComp(웹 탐색 능력): 43.4점으로 o3(49.7점)에 근접
- WebWalkerQA(웹 탐색 QA): 72.2점으로 최고 성능 달성
- FRAMES(RAG 역량 테스트): 90.6점으로 최고 성능
- 법률 연구 평가: 판례 인용 정확도(64.26) 및 핵심 논점 정확도(88.28) 모두 오픈AI와 앤트로픽 모델 앞섬
즉, 단순한 **소형 모델이 아닌 ‘고효율·고성능 AI 에이전트’**로 자리 잡았다고 볼 수 있습니다.
학습 방식과 구조
퉁이 딥리서치가 돋보이는 이유는 효율적인 학습 파이프라인 덕분입니다.
1. 3단계 학습 프로세스
- CPT(지속 사전 훈련): 방대한 합성 QA 데이터 생성
- SFT(지도 미세조정): 데이터 기반으로 모델 세밀하게 조정
- RL(강화학습): GRPO 알고리즘을 활용해 불필요한 샘플 제거 및 효율적 학습 진행
2. 시뮬레이션 환경 학습
- 실제 웹 환경을 모방한 위키 기반 시뮬레이션에서 시행착오 학습
- 데이터 큐레이션 엔진을 통해 모델 성능에 맞는 난이도 조절
3. 주요 모델 기반
- AgentFounder-30B: 연속 사전학습으로 에이전트 행동 능력 강화
- WebSailor-V2-30B-A3B: 강화학습 기반 사후 최적화
추론 모드: 상황에 맞는 유연한 대응
퉁이 딥리서치는 두 가지 추론 모드를 지원합니다.
- ReAct 모드: 사고-행동-관찰 루프 기반. 별도 설정 없이도 직관적이고 반복 가능한 성능 제공.
- Heavy 모드: 복잡한 과제를 여러 라운드로 나눠 처리. 긴 컨텍스트 환경에서도 안정적 추론 가능.
특히, 여러 에이전트를 병렬 실행 후 최종 합성 에이전트가 결과를 통합하는 방식은 고난도 연구나 법률 분석 같은 분야에서 강력한 도구가 됩니다.
오픈소스 공개의 의미
이번 발표의 가장 큰 의미는 바로 오픈소스입니다.
- 개발자 친화적: 누구나 소스코드를 내려받아 직접 수정 가능
- 상업적 활용 허용: 기업도 자유롭게 서비스에 적용 가능
- 커뮤니티 확장성: 전 세계 AI 연구자와 개발자가 참여해 발전 가능
이는 올해 초 적은 학습 비용으로 오픈AI 성능에 근접했던 **딥시크(DeepSeek)**의 사례와 유사하게, 저비용·고성능 AI 경쟁의 신호탄으로 평가됩니다.
퉁이 딥리서치가 여는 미래
알리바바의 퉁이 딥리서치는 **“더 작고 효율적인 AI도 초거대 모델을 능가할 수 있다”**는 가능성을 보여주었습니다.
특히 오픈소스로 공개된 만큼, AI 생태계 전반에 혁신적인 파급 효과를 가져올 전망입니다.
앞으로 이 모델이 연구, 법률, 데이터 분석, 웹 자동화 등 다양한 분야에서 실질적인 변화를 만들 수 있을지 주목해 볼 필요가 있습니다.
핵심 포인트:
- 30B 파라미터지만 초대형 모델과 대등한 성능
- 오픈소스로 공개 → 자유로운 수정과 상업적 활용 가능
- 연구·산업 전반에서 활용 가능성 무궁무진
AI 경쟁의 판도가 ‘크기’에서 ‘효율성’으로 옮겨가는 흐름, 퉁이 딥리서치가 그 전환점을 만들고 있습니다.
https://github.com/Alibaba-NLP/DeepResearch
GitHub - Alibaba-NLP/DeepResearch: Tongyi DeepResearch, the Leading Open-source DeepResearch Agent
Tongyi DeepResearch, the Leading Open-source DeepResearch Agent - Alibaba-NLP/DeepResearch
github.com

'인공지능' 카테고리의 다른 글
| 초대형 언어 모델 사전학습을 쉽게, Nanotron 라이브러리 소개 (0) | 2025.09.19 |
|---|---|
| MCP 서버 업그레이드: 컨텍스트 엔지니어링으로 AI 신뢰성을 높이는 방법 (0) | 2025.09.19 |
| Claude 응답 품질 저하 사건 분석: 세 가지 인프라 버그의 교훈 (0) | 2025.09.19 |
| GitHub MCP Registry: AI 개발을 위한 새로운 출발점 (0) | 2025.09.19 |
| 1백만 토큰 시대의 사고 기계: MiniMax-M1이 바꾸는 긴 문맥 AI (0) | 2025.09.18 |