본문 바로가기

인공지능

Autoresearch: AI 에이전트가 스스로 LLM 연구를 수행하는 자동 연구 프레임워크

728x90
반응형
728x170

대규모 언어 모델(LLM)의 발전과 함께 연구 속도 또한 중요한 경쟁 요소가 되었습니다. 기존의 AI 연구는 연구자가 직접 모델 구조를 수정하고 학습을 실행하며 결과를 분석하는 반복 작업을 수행해야 했습니다. 이러한 과정은 시간이 많이 소요되고 반복적인 실험 관리가 필요합니다.

이러한 문제를 해결하기 위해 **Andrej Karpathy**가 공개한 Autoresearch는 AI 에이전트가 스스로 LLM 학습 실험을 반복하며 연구를 진행하는 자동 연구 프레임워크입니다. 이 프로젝트는 약 630줄의 단일 GPU 기반 코드로 구성된 자기완결형 시스템으로, AI 에이전트가 학습 코드를 수정하고 실험을 수행하며 더 나은 성능을 찾는 연구 루프를 자동으로 실행합니다.

이 글에서는 Autoresearch의 개념과 동작 방식, 핵심 구조, 설계 원칙, 그리고 실제 실행 방법까지 정리해 보겠습니다.

반응형

Autoresearch 개념

Autoresearch는 AI 에이전트가 스스로 실험을 설계하고 실행하며 성능을 개선하는 자동 연구 시스템입니다.

기본적인 아이디어는 다음과 같습니다.

  1. AI 에이전트가 학습 코드를 수정한다.
  2. 수정된 코드로 모델을 일정 시간 동안 학습한다.
  3. 학습 결과를 평가한다.
  4. 성능이 개선되면 코드를 유지하고, 아니면 폐기한다.
  5. 이 과정을 반복한다.

이 과정은 사람의 개입 없이 반복되며, 사용자는 다음 날 실험 결과와 개선된 모델을 확인할 수 있습니다.

즉, Autoresearch는 AI가 스스로 연구를 수행하도록 만드는 자동화된 실험 루프라고 볼 수 있습니다.


Autoresearch의 핵심 구조

Autoresearch는 복잡한 시스템 대신 세 개의 핵심 파일만으로 구성된 단순한 구조를 갖습니다.

1. prepare.py

prepare.py는 실험 환경을 준비하는 역할을 합니다.

주요 기능은 다음과 같습니다.

  • 학습 데이터 다운로드
  • BPE 토크나이저 학습
  • 데이터 로더 생성
  • 평가 함수 제공
  • 공통 런타임 유틸리티 제공

이 파일은 실험 환경을 안정적으로 유지하기 위해 AI 에이전트가 수정하지 않는 고정 파일입니다.


2. train.py

train.py는 Autoresearch에서 가장 중요한 파일입니다.

이 파일에는 다음과 같은 요소가 포함됩니다.

  • GPT 모델 구현
  • 옵티마이저 (Muon + AdamW)
  • 학습 루프
  • 하이퍼파라미터 설정

AI 에이전트는 이 단일 파일만 수정하면서 연구를 수행합니다.

수정 가능한 항목 예시는 다음과 같습니다.

  • 신경망 아키텍처
  • 옵티마이저 설정
  • 하이퍼파라미터
  • 배치 사이즈
  • 학습 전략

이러한 설계는 실험 변경 범위를 제한하여 코드 관리와 diff 확인을 쉽게 만들어 줍니다.


3. program.md

program.md는 AI 에이전트에게 제공되는 연구 지침 문서입니다.

사람이 이 파일을 수정하여 다음과 같은 내용을 정의할 수 있습니다.

  • 연구 목표
  • 실험 방향
  • 모델 개선 전략
  • 실험 규칙

즉 program.md는 AI 에이전트에게 연구 방향을 제시하는 경량 스킬 파일 역할을 합니다.


Autoresearch의 자동 연구 루프

Autoresearch의 핵심은 AI 에이전트가 수행하는 자율 실험 루프입니다.

연구 과정은 다음과 같이 진행됩니다.

  1. AI 에이전트가 train.py를 수정
  2. 모델 학습 실행 (5분)
  3. validation loss 평가
  4. 결과 비교
  5. 성능 개선 시 git 커밋
  6. 개선되지 않으면 변경 폐기
  7. 다음 실험 진행

이 과정은 git feature branch에서 자동으로 반복됩니다.

즉 실험 결과가 개선될 때마다 코드가 커밋되어 연구 과정 자체가 기록되는 구조입니다.


고정 5분 실험 예산 설계

Autoresearch의 독특한 설계 중 하나는 고정 시간 예산 실험 방식입니다.

모든 실험은 다음 규칙을 따릅니다.

  • 정확히 5분 동안만 학습
  • 모델 크기와 상관없이 동일 시간 실행
  • 시간당 약 12회 실험
  • 밤 동안 약 100회 실험 가능

이 방식의 장점은 다음과 같습니다.

장점

  • 모든 실험이 동일한 시간 기준에서 비교 가능
  • 실험 관리가 단순해짐
  • 연구 자동화에 적합

단점

  • 다른 하드웨어 환경과 직접 비교는 어려움

즉 Autoresearch는 연구 효율성을 최우선으로 고려한 설계를 선택했습니다.


Autoresearch 설계 철학

Autoresearch는 다음 세 가지 설계 원칙을 기반으로 합니다.

1. 단순한 코드 구조

전체 학습 코어가 약 630줄 수준으로 구성됩니다.

특징

  • 단일 GPU
  • 단일 파일 수정
  • 최소 외부 의존성
  • 복잡한 설정 없음

이 구조는 AI 에이전트가 코드를 이해하고 수정하기 쉽게 만드는 것이 목적입니다.


2. 자기완결형 시스템

Autoresearch는 최소한의 환경만 필요합니다.

필요 구성 요소

  • Python 3.10+
  • PyTorch
  • uv 패키지 매니저
  • NVIDIA GPU

분산 학습이나 복잡한 클러스터 환경 없이도 실행 가능합니다.


3. 에이전트 중심 연구

Autoresearch는 특정 AI 모델에 종속되지 않습니다.

다양한 AI 에이전트를 연결할 수 있습니다.

예시

  • Claude
  • Codex
  • 기타 코드 생성 모델

에이전트는 repository 내부에서 다음 과정을 수행합니다.

  1. program.md 읽기
  2. 연구 목표 이해
  3. 코드 수정
  4. 실험 실행

이 구조는 다양한 AI 연구 에이전트 실험을 가능하게 합니다.


Autoresearch 실행 방식

Autoresearch는 비교적 간단한 실행 과정을 갖습니다.

요구 환경

  • NVIDIA GPU (H100에서 테스트)
  • Python 3.10 이상
  • uv 패키지 매니저

현재 버전은 NVIDIA GPU 전용으로 설계되었습니다.

CPU나 macOS 환경 지원은 코드 복잡성을 줄이기 위해 기본 구현에서 제외되어 있습니다.

다만 macOS 환경에서는 별도의 포크 프로젝트도 존재합니다.


실행 흐름 예시

  1. Autoresearch 레포지토리 클론
  2. AI 에이전트 실행
  3. program.md 읽기
  4. train.py 수정
  5. 5분 학습 실행
  6. 결과 비교 및 git 커밋
  7. 반복 실험 수행

이 과정은 사용자의 개입 없이 자동으로 반복됩니다.


Autoresearch의 의미와 가능성

Autoresearch는 단순한 실험 자동화 도구가 아니라 AI 연구 방식 자체를 변화시킬 수 있는 접근 방식을 제시합니다.

기존 연구 방식

  • 사람이 코드 수정
  • 사람이 실험 실행
  • 사람이 결과 분석

Autoresearch 방식

  • AI가 코드 수정
  • AI가 실험 실행
  • AI가 결과 비교

AI가 연구를 수행하고 인간은 방향을 설정하는 구조로 변화합니다.


728x90

Autoresearch는 AI 에이전트가 스스로 LLM 연구를 수행하도록 설계된 자동 연구 프레임워크입니다.

핵심 특징은 다음과 같습니다.

  • 약 630줄의 단순한 코드 구조
  • AI 에이전트 기반 자율 연구 루프
  • 단일 파일(train.py) 수정 방식
  • 5분 고정 시간 실험 전략
  • git 기반 실험 기록
  • 다양한 AI 에이전트 연결 가능

이러한 구조는 AI 연구의 자동화와 속도 향상이라는 새로운 가능성을 보여줍니다.

앞으로 Autoresearch와 같은 프레임워크는 다음과 같은 방향으로 발전할 가능성이 있습니다.

  • AI 기반 연구 자동화 플랫폼
  • 자율 모델 아키텍처 탐색
  • 자동 하이퍼파라미터 튜닝
  • AI 연구 에이전트 협업 시스템

결국 Autoresearch가 제시하는 핵심 질문은 하나입니다.

AI는 스스로 더 나은 AI를 만들 수 있을까?

이 질문에 대한 답을 찾는 과정이 바로 Autoresearch의 실험이라고 할 수 있습니다.

300x250

https://github.com/karpathy/autoresearch

 

GitHub - karpathy/autoresearch: AI agents running research on single-GPU nanochat training automatically

AI agents running research on single-GPU nanochat training automatically - karpathy/autoresearch

github.com

728x90
반응형
그리드형