오픈소스 AI 연구의 새로운 시대: Tongyi DeepResearch 완전 분석

728x90

728x170

최근 AI 연구계에서 가장 주목받는 소식 중 하나는 알리바바 그룹의 연구소 Tongyi Lab이 공개한 Tongyi DeepResearch다.
이 모델은 OpenAI의 DeepResearch와 동등한 수준의 성능을 달성한 최초의 완전 오픈소스 웹 에이전트로 평가받으며, 인공지능 연구의 방향을 크게 바꿀 가능성을 보여주고 있다.

이번 글에서는 Tongyi DeepResearch의 기술적 구조, 학습 방식, 실제 적용 사례, 그리고 앞으로의 발전 가능성을 중심으로 살펴본다.

1. 오픈소스로 등장한 OpenAI DeepResearch의 경쟁자

OpenAI가 DeepResearch를 통해 ‘자율적 웹 탐색 기반 연구형 AI’의 가능성을 보여준 이후, 비슷한 수준의 오픈소스 대체 모델을 찾는 움직임이 활발했다.

Tongyi DeepResearch는 이러한 요구에 대한 강력한 응답이다.
알리바바의 Tongyi Lab은 QWEN 시리즈 모델을 개발한 AI 연구·개발 부문으로, 이번 프로젝트를 통해 자율 에이전트(Agentic LLM) 연구의 새로운 지평을 열었다.

특히 주목할 점은 Tongyi DeepResearch가 단순한 모델이 아니라, 학습 데이터 합성, 강화학습, 에이전트 행동 시뮬레이션을 모두 통합한 완전한 연구 프레임워크라는 점이다.

결과적으로 이 모델은 Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75점을 기록하며, 기존의 상용 및 오픈소스 에이전트를 모두 앞서는 성능을 보여주었다.

2. Tongyi DeepResearch란 무엇인가

Tongyi DeepResearch는 30B 파라미터 규모의 MoE(Mixture of Experts) 모델을 기반으로 하며, 완전 오픈소스 형태로 공개되었다.
OpenAI DeepResearch처럼 웹에서 복잡한 정보를 스스로 탐색하고, 이를 종합해 연구 수준의 결과물을 산출할 수 있는 자율 연구형 AI 에이전트다.

핵심 차별점은 데이터 합성 중심의 학습 방식과 완전 자동화된 에이전트 학습 루프에 있다.
이 덕분에 인간의 주석 데이터에 의존하지 않고도 고품질의 질의응답(QA) 데이터를 대량으로 생산하고, 이를 바탕으로 장기적 추론 능력을 학습할 수 있다.

Tongyi DeepResearch는 단순한 챗봇이 아니라, “스스로 연구하고 계획하는 AI”라는 점에서 의미가 있다.

3. 핵심 기술 구조 분석

3-1. Agentic CPT – SFT – RL의 통합 학습 파이프라인

Tongyi DeepResearch의 학습 과정은 Agentic Continual Pre-training(CPT), Supervised Fine-Tuning(SFT), **Reinforcement Learning(RL)**의 세 단계로 구성된 엔드투엔드(End-to-End) 루프다.

Agentic CPT 단계에서는 합성 데이터를 기반으로 자율적 행동 패턴과 지식 구조를 학습한다.
SFT 단계에서는 감독 학습을 통해 특정 도메인이나 태스크에 대한 이해도를 높인다.
RL 단계에서는 Group Relative Policy Optimization(GRPO) 알고리즘을 사용해 강화학습을 수행하며, 토큰 단위 정책 그래디언트 손실과 leave-one-out 전략을 통해 안정성을 확보한다.

이 파이프라인을 통해 모델은 반복적으로 학습하면서 스스로 진화하는 구조를 가지게 된다.

3-2. 합성 데이터 중심의 학습 전략

Tongyi DeepResearch의 가장 큰 기술적 혁신은 완전 합성 데이터 기반의 QA 생성 시스템이다.

이 시스템은 AgentFounder라는 데이터 합성 플랫폼을 통해 작동하며, 문서, 지식 그래프, 웹 크롤링 데이터, 도구 호출 기록 등을 결합해 엔티티 중심의 지식 메모리를 생성한다.
이후 이를 기반으로 다단계 질문과 답변 쌍을 자동으로 만들어낸다.

또한 행동 합성(Action Synthesis) 기술을 통해 AI가 의사결정을 내리는 과정 자체를 데이터로 재현함으로써, 모델의 의사결정 능력을 강화한다.

이렇게 만들어진 데이터는 단순 질의응답을 넘어서 복잡한 추론 구조를 반영하며, 모델이 실제 ‘연구자처럼 사고’하도록 훈련시킨다.

3-3. ReAct 모드와 Heavy 모드

Tongyi DeepResearch는 두 가지 실행 모드를 지원한다.

ReAct 모드:
Thought–Action–Observation 구조를 따르며, 프롬프트 엔지니어링 없이도 모델이 자율적으로 사고하고 행동하는 루프를 형성한다.
최대 128K의 컨텍스트를 지원해 다수의 상호작용 라운드를 처리할 수 있다.
단순하고 일반적인 추론 태스크에 최적화되어 있다.
Heavy 모드:
복잡한 연구 과제나 장기 계획이 필요한 상황에서 사용된다.
각 라운드마다 핵심 결과만 유지하고 새로운 작업 공간을 구성하며, 중앙 보고서를 지속적으로 갱신한다.
여러 연구 에이전트가 병렬로 탐색한 결과를 통합하는 Research–Synthesis 프레임워크를 통해 더 넓은 탐색 경로를 확보한다.

이 두 모드는 단순 정보 검색에서부터 복잡한 연구 설계까지 폭넓은 수준의 작업을 지원한다.

4. 실제 적용 사례

Tongyi DeepResearch는 이미 알리바바 내부와 외부에서 실용적 수준으로 활용되고 있다.

4-1. Gaode Mate – 지도 및 내비게이션 에이전트

알리바바의 지도 서비스 Amap 팀과 협력해 개발된 AI 코파일럿 ‘Xiao Gao’는 Tongyi DeepResearch 기반으로 동작한다.
이 에이전트는 사용자의 여행 일정, 반려동물 친화 숙소, 교통 경로 등 다양한 조건을 동시에 고려해 복합적인 계획을 세울 수 있다.

이는 단순한 길안내를 넘어, 사용자 맞춤형 여행 플래너로 진화한 사례다.

4-2. Tongyi FaRui – 법률 연구 에이전트

법률 도메인 특화 버전인 Tongyi FaRui는 변호사 수준의 다단계 법률 연구를 수행한다.
판례 검색, 법령 교차 검토, 분석 통합을 모두 자동으로 수행하며, 모든 결론에는 근거 자료와 정확한 인용이 포함된다.

이는 AI가 법률 연구 보조자로 활용될 수 있는 가능성을 보여준 대표적인 사례다.

5. 기술적 한계와 향후 과제

Tongyi DeepResearch가 보여주는 성과는 분명 인상적이지만, 아직 완벽하지는 않다.

128K 컨텍스트 한계로 인해 초장기 연구 과제에서는 정보 유지에 제약이 있다.
30B MoE 모델의 확장성이 더 큰 모델로 검증되어야 하며,
강화학습(RL)의 효율성을 개선하기 위한 부분 롤아웃 및 오프폴리시 학습 연구가 진행 중이다.

이러한 과제를 해결한다면, Tongyi DeepResearch는 자율적 연구형 AI의 완성형에 한 걸음 더 가까워질 것이다.

728x90

Tongyi DeepResearch는 단순히 OpenAI DeepResearch의 오픈소스 대체제가 아니다.
이 모델은 합성 데이터, 자율 학습, 다단계 연구 수행 능력을 결합한 새로운 형태의 AI 에이전트다.

이를 통해 AI가 단순히 정보를 검색하거나 요약하는 수준을 넘어,
“스스로 질문을 만들고, 답을 찾고, 지식을 확장하는 존재”로 진화하고 있음을 보여준다.

오픈소스로 공개된 점 또한 의미가 크다. 연구자와 개발자 누구나 이 모델을 기반으로 자신만의 연구형 에이전트를 개발할 수 있으며, 이는 AI 연구의 민주화를 가속할 것이다.

앞으로 Tongyi DeepResearch는 오픈소스 생태계 속에서 다양한 변형 모델과 연구 도구로 확장될 가능성이 크다.
결국 이 프로젝트는 “AI가 인간의 연구 파트너가 되는 시대”를 앞당기는 중요한 전환점이라 할 수 있다.

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

Tongyi DeepResearch: A New Era of Open-Source AI Researchers

GITHUB HUGGINGFACE MODELSCOPE SHOWCASE From Chatbot to Autonomous Agent We are proud to present Tongyi DeepResearch, the first fully open‑source Web Agent to achieve performance on par with OpenAI’s DeepResearch across a comprehe

tongyi-agent.github.io

728x90

그리드형

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

Verbalized Sampling(VS): LLM의 다양성을 깨우는 새로운 프롬프트 엔지니어링 기법 (0)	2025.11.05
Engineering at Anthropic - MCP 코드 실행으로 AI 에이전트의 효율성을 극대화하는 방법 (0)	2025.11.05
나노바나나 대항마 Emu3.5: 세상을 이해하고 예측하는 차세대 멀티모달 AI (0)	2025.11.04
Langrepl: 대화형 LLM 에이전트 개발을 위한 통합 CLI 플랫폼 (0)	2025.11.04
복잡한 AI 작업을 단순하게: Sage Multi-Agent Framework로 본 차세대 오케스트레이션의 진화 (0)	2025.11.04

평범한 직장인이 사는 세상

오픈소스 AI 연구의 새로운 시대: Tongyi DeepResearch 완전 분석

1. 오픈소스로 등장한 OpenAI DeepResearch의 경쟁자

2. Tongyi DeepResearch란 무엇인가

3. 핵심 기술 구조 분석

3-1. Agentic CPT – SFT – RL의 통합 학습 파이프라인

3-2. 합성 데이터 중심의 학습 전략

3-3. ReAct 모드와 Heavy 모드

4. 실제 적용 사례

4-1. Gaode Mate – 지도 및 내비게이션 에이전트

4-2. Tongyi FaRui – 법률 연구 에이전트

5. 기술적 한계와 향후 과제

'인공지능' 카테고리의 다른 글

티스토리툴바

오픈소스 AI 연구의 새로운 시대: Tongyi DeepResearch 완전 분석

1. 오픈소스로 등장한 OpenAI DeepResearch의 경쟁자

2. Tongyi DeepResearch란 무엇인가

3. 핵심 기술 구조 분석

3-1. Agentic CPT – SFT – RL의 통합 학습 파이프라인

3-2. 합성 데이터 중심의 학습 전략

3-3. ReAct 모드와 Heavy 모드

4. 실제 적용 사례

4-1. Gaode Mate – 지도 및 내비게이션 에이전트

4-2. Tongyi FaRui – 법률 연구 에이전트

5. 기술적 한계와 향후 과제

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바