
단백질을 이해하는 방식이 바뀌고 있습니다
이 글은 진화가 만들어낸 단백질의 방대한 정보를 인공지능으로 학습해 구조 예측, 기능 이해, 치료용 단백질 설계까지 가능하게 만든 차세대 단백질 AI 시스템 ESM(Evolutionary Scale Models)의 개념과 핵심 구성, 기술적 특징, 그리고 실제 바이오·의학 분야에서 어떤 변화를 만들고 있는지를 정리한 글입니다.
특히 수십억 개의 단백질 서열을 학습한 언어 모델 ESMC, 구조 예측과 설계를 동시에 수행하는 ESMFold2, 그리고 이를 집대성한 ESM Atlas가 어떻게 단백질 연구의 속도와 범위를 바꾸는지에 초점을 맞춥니다.
단백질 생물학의 근본적 문제와 한계
단백질은 생명체의 거의 모든 생물학적 기능을 수행합니다. 하지만 현실에서는 다음과 같은 한계가 존재합니다.
- 지구 생명체에는 수십억 개의 단백질 서열이 존재
- 실험적으로 구조와 기능이 규명된 단백질은 극히 일부
- 새로운 단백질 기능이나 치료 표적을 찾는 과정은 시간과 비용이 매우 큼
이로 인해 대부분의 단백질은 “존재는 알지만 무엇을 하는지는 모르는 상태”로 남아 있었습니다.
ESM: 단백질을 위한 월드 모델의 등장
Biohub는 이러한 한계를 해결하기 위해 단백질 생물학의 월드 모델이라는 개념을 제시했습니다.
이는 단일 문제를 푸는 모델이 아니라, 단백질 서열·구조·기능을 하나의 표현 공간에서 이해하고 예측하는 범용 AI 엔진입니다.
이 시스템은 다음 세 가지 핵심 구성 요소로 이루어져 있습니다.
ESMC: 모든 생명의 단백질 언어를 학습한 모델
ESMC(ESM Cambrian)는 약 28억 개의 단백질 서열을 학습한 최신 단백질 언어 모델입니다.
핵심 개념
- 단백질을 아미노산으로 이루어진 문장처럼 취급
- 일부 아미노산을 가리고 예측하는 방식으로 학습
- 구조나 기능 정보를 직접 주지 않아도, 내부 표현에 생물학적 규칙이 자연스럽게 내재화됨
기술적 의미
- 서열 → 구조 → 기능으로 이어지는 생물학적 관계를 하나의 표현 공간에 담음
- 학습 규모가 커질수록 생물학적 표현의 정확도가 선형적으로 개선됨
- 단백질 구조 예측, 기능 추론, 신규 서열 생성의 기반 모델 역할 수행
ESMFold2: 언어 모델 기반 단백질 구조 예측과 설계
ESMFold2는 ESMC의 표현을 활용해 단백질과 단백질 복합체의 3차원 구조를 예측하고, 나아가 새로운 단백질을 설계할 수 있는 모델입니다.
주요 특징
- 반복(loop) 구조의 트랜스포머 아키텍처 사용
- 한 번이 아닌 여러 차례 동일한 파라미터를 통과시키며 구조를 점진적으로 정제
- 추론 시 연산량을 늘려 어려운 구조 예측에 더 많은 계산 자원 투입 가능
기술적 강점
- 다중 서열 정렬(MSA)에 의존하지 않고도 높은 정확도
- 항체–항원 구조 예측에서 기존 모델 대비 우수한 성능
- ESMFold2-Fast는 1024 아미노산 길이 단백질을 약 9초 내 예측 가능
이 속도는 “각 단백질 설계를 하나의 가상 실험”으로 취급할 수 있게 만듭니다.
치료용 단백질 설계의 가속화
ESMFold2의 가장 큰 성과 중 하나는 치료용 단백질 결합체(binder) 설계입니다.
기존 방식의 한계
- 수십만~수백만 후보를 실험으로 탐색
- 초기 후보 발굴에만 수개월 소요
- 항체 개발은 전체적으로 수년 단위 프로젝트
ESMFold2의 변화
- 수만 개 후보를 계산적으로 생성 및 평가
- 수일 내 초기 결합 단백질 후보 확보
- 실제 실험에서 나노몰(nM) 수준 결합 친화도 검증
검증된 표적 예시
- EGFR, PDGFRβ (암 관련 수용체)
- PD-L1, CTLA-4 (면역 체크포인트)
- CD45 (면역 신호 조절 단백질)
특히 PD-L1에 결합하는 scFv 단백질은 실험적으로 기능까지 입증되었습니다.
ESM Atlas: 알려진 것과 모르는 것을 잇는 지도
ESM Atlas는
- 68억 개 단백질 서열
- 11억 개 예측 구조
를 하나의 지도처럼 정리한 데이터 자산입니다.
의미 있는 점
- 기존 서열 유사성만으로는 연결되지 않던 단백질 간 관계를 드러냄
- CRISPR-Cas 계열처럼 진화적으로 멀리 떨어진 단백질의 기능적 공통점도 자동으로 군집화
- “아직 기능이 밝혀지지 않은 단백질”을 연구할 실마리 제공
단백질 AI가 가능하게 하는 미래
이 월드 모델이 갖는 본질적인 변화는 실험의 속도와 범위입니다.
- 수억~수십억 개 단백질 구조를 단기간에 계산
- 수백만 개 설계 후보를 가상 환경에서 선별
- 희귀질환, 개인 맞춤 암 치료처럼 소규모·특수 표적 연구의 진입 장벽 감소
이는 단순히 연구가 빨라지는 것이 아니라, 이전에는 시도조차 어려웠던 연구를 가능하게 만드는 변화입니다.
단백질 연구의 패러다임 전환
ESM은 단백질을 “하나씩 실험으로 분석하는 대상”에서
**“계산적으로 탐색 가능한 생물학적 공간”**으로 바꾸고 있습니다.
단백질 구조 예측을 넘어,
- 기능 이해
- 치료 단백질 설계
- 미지의 생물학 발견
까지 이어지는 이 흐름은 향후 바이오, 신약 개발, 정밀 의료 전반에 깊은 영향을 미칠 가능성이 큽니다.
ESM은 그 변화의 출발점에 있는 기술입니다.
https://biohub.ai/esm/protein/about
ESM: A World Model of Protein Biology
Predict, design, and discover with Biohub's open discovery engine.
biohub.ai

'인공지능' 카테고리의 다른 글
| 하드웨어에 맞는 LLM을 자동으로 추천해주는 LLM Checker 기술 정리 (0) | 2026.05.28 |
|---|---|
| Google 검색의 변화와 지금 주목해야 할 대체 검색엔진 정리 (0) | 2026.05.28 |
| Codex 기반 자가 개선형 Tax AI 에이전트 구축 사례 정리 (0) | 2026.05.28 |
| YouTube, AI 생성 동영상 자동 라벨 적용 예고와 변경 내용 정리 (0) | 2026.05.28 |
| LLM 에이전트 스킬을 안정적으로 학습시키는 텍스트 최적화 방법, SkillOpt (0) | 2026.05.28 |