본문 바로가기

인공지능

노르웨이 국립도서관의 주권 LLM 프로젝트: 2PB Huawei 플래시 스토리지와 AI 학습 파이프라인

728x90
반응형
728x170

노르웨이 국립도서관이 자국어를 이해하는 대규모 언어 모델(LLM)을 직접 구축하기 위해 2페타바이트(PB) 규모의 Huawei 플래시 스토리지를 도입한 사례는, AI 기술이 단순한 모델 개발을 넘어 데이터와 인프라 전략까지 함께 고민해야 한다는 점을 보여줍니다.
이 글에서는 노르웨이 국립도서관의 주권 LLM 프로젝트를 중심으로, 왜 이런 시도가 필요했는지, 어떤 데이터와 스토리지 구조를 갖추고 있는지, 그리고 AI 학습 파이프라인에서 스토리지가 어떤 역할을 하는지를 정리합니다.

반응형

왜 ‘주권 LLM’이 필요한가

현재 상용 LLM 대부분은 영어 중심으로 학습돼 있습니다. 이 때문에 노르웨이어처럼 지역 언어로 기록된 역사, 뉴스, 문화적 맥락을 제대로 이해하지 못하는 한계가 있습니다.
노르웨이 국립도서관은 상용 LLM 제공업체들이 노르웨이어에 특화된 지역 언어 모델을 개발하지 않는 현실을 문제로 보고, 자국어로 학습된 주권 LLM을 직접 구축하기로 했습니다.

주권 LLM이 없는 국가는 결국 글로벌 데이터와 영어 중심 모델에 의존하게 됩니다. 이는 언어뿐 아니라 문화와 역사 해석에서도 외부 기준에 기대게 된다는 의미입니다. 노르웨이 문화부가 국립도서관에 주권 AI 구축을 맡긴 배경도 여기에 있습니다.


20PB 원천 데이터와 60PB 저장 구조

노르웨이 국립도서관의 가장 큰 강점은 데이터입니다.
이 기관은 2005년부터 책, 신문, 웹페이지, 음성, 영상 등 다양한 문화 자산을 디지털화해 약 20PB의 고유 데이터를 축적해 왔습니다.

이 데이터는 3-2-1 방식으로 저장됩니다.

  • 3개의 사본을 유지
  • 2가지 서로 다른 미디어에 저장
  • 1개는 오프사이트에 보관

이 구조로 인해 실제 저장 용량은 약 60PB에 달합니다.
대부분의 데이터는 디지털 디스크와 테이프 아카이브로 구성된 보존 시스템에 저장되며, OCR 스캔을 통해 생성된 텍스트 데이터와 방대한 메타데이터, 온라인 접근을 위한 API도 함께 관리됩니다.


문제의 핵심은 ‘컴퓨트’가 아니라 ‘데이터 파이프라인’

이 프로젝트에서 가장 큰 병목은 GPU나 CPU 성능이 아니었습니다.
실제 문제는 데이터의 품질, 정제 과정, 그리고 대규모 데이터를 처리하는 파이프라인의 처리량이었습니다.

보존 아카이브에 쌓인 데이터를 그대로 LLM 학습에 쓸 수는 없습니다. 데이터 수집 이후에는 정제, 중복 제거, 포맷 정규화, 검증, 학습용 데이터 준비라는 여러 단계를 거쳐야 합니다. 이 과정에서 저지연, 고처리량 스토리지가 필수적입니다.


2PB Huawei OceanStor Dorado의 역할

국립도서관은 내부 AI 환경에 총 2PB 규모의 Huawei OceanStor Dorado 올플래시 스토리지를 배치했습니다.
이 스토리지는 다음과 같은 장비와 함께 데이터 준비 파이프라인을 구성합니다.

  • Nvidia DGX H200 시스템
  • 384코어 CPU 클러스터
  • Huawei OceanStor Dorado 플래시 스토리지

여기서 Huawei 플래시 스토리지는 AI 학습 그 자체보다는, 학습에 앞선 데이터 준비 단계에서 핵심 역할을 합니다. 대량의 데이터를 빠르게 읽고 쓰며 병렬 I/O를 처리할 수 있기 때문에, 보존 시스템에서 꺼낸 데이터를 AI 학습에 적합한 형태로 가공하는 데 적합합니다.


실제 학습은 국가 슈퍼컴퓨터에서

정제와 준비가 끝난 데이터는 노르웨이 국가 슈퍼컴퓨터인 Sigma2 Olivia로 전달돼 실제 LLM 학습이 진행됩니다.
Olivia 시스템은 대규모 GPU와 CPU 자원을 갖춘 환경으로, 학습 실행에 특화돼 있습니다.

즉, 구조를 단순화하면 다음과 같습니다.

  • 국립도서관 온프레미스 환경: 데이터 준비와 파이프라인 처리
  • 국가 슈퍼컴퓨터: 대규모 모델 학습 실행

이렇게 역할을 분리함으로써, 각 환경이 가장 잘하는 작업에 집중할 수 있도록 설계했습니다.


보존 스토리지와 AI 스토리지는 다르다

이 사례가 보여주는 중요한 포인트 중 하나는 스토리지 요구사항의 차이입니다.

  • 보존 아카이브 스토리지
    • 내구성과 비용 효율이 최우선
    • 접근 빈도가 낮고 읽기 지연이 높아도 허용
  • AI 파이프라인 스토리지
    • 높은 처리량과 낮은 지연시간이 필수
    • 대규모 병렬 데이터 I/O를 전제로 설계

PB 규모 데이터를 보존 시스템에서 AI 파이프라인으로 옮기는 과정은 자동으로 해결되지 않습니다. 노르웨이 국립도서관 팀은 이 연결 방식을 직접 설계하고 운영하면서 최적의 방법을 찾아가고 있습니다.


아직 남아 있는 과제들

프로젝트는 진행 중이며, 해결해야 할 과제도 분명합니다.

  • 평가 문제
    노르웨이어에는 두 가지 문어 형태와 다양한 방언, 역사적 변화가 존재합니다. 이를 공정하게 평가할 표준 도구가 없어, 국립도서관은 자체 평가 체계를 구축 중입니다.
  • 거버넌스 문제
    주권 LLM에 누가 접근할 수 있는지, 무엇에 사용할 수 있는지를 누가 결정할 것인지에 대한 질문은 기술이 아닌 제도와 정치의 영역입니다.
  • 오케스트레이션
    보존 아카이브, 온프레미스 AI 환경, 국가 슈퍼컴퓨터라는 세 시스템을 하나의 흐름으로 묶는 작업도 계속 진행 중입니다.

728x90

노르웨이 국립도서관의 사례는 주권 LLM이 단순히 모델을 만드는 프로젝트가 아니라는 점을 분명히 보여줍니다.
자국 언어와 문화를 반영하는 AI를 만들기 위해서는, 대규모 데이터 자산, 이를 지탱하는 스토리지 전략, 그리고 장기적인 관리와 거버넌스까지 함께 고민해야 합니다.

Huawei 플래시 스토리지는 이 과정에서 데이터 파이프라인의 실질적인 병목을 해결하는 핵심 인프라로 활용되고 있습니다.
이 사례는 영어권이 아닌 모든 국가가 앞으로 마주하게 될 질문, 즉 “우리 언어와 역사를 이해하는 AI를 어떻게 구축할 것인가”에 대한 하나의 현실적인 답을 제시합니다.

300x250

https://www.blocksandfiles.com/flash/2026/05/22/norways-2-petabytes-of-huawei-flash-storage-and-llm-training/5244910

 

Norway’s 2 petabytes of Huawei flash storage and LLM training

Norway’s National Library is developing a large language model (LLM) that understands the Norwegian ...

www.blocksandfiles.com

728x90
반응형
그리드형