[리뷰] Absolute Zero: Reinforced Self-play Reasoning with Zero Data

“AI가 스스로 학습하고 스스로 진화하는 시대: Absolute Zero Reasoner의 등장”
– 데이터 한 줄 없이 스스로 문제를 만들고 푸는 AI의 새로운 패러다임


1. 개요 (Intro)

우리는 수많은 데이터로 훈련된 AI에 익숙합니다. 하지만 데이터가 점점 고갈되고 인간이 만든 문제로는 한계가 명확해지는 시점에서, AI가 스스로 학습하고 진화할 수 있는 가능성이 열렸습니다. 이 글은 그 전환점을 보여주는 혁신적인 논문 “Absolute Zero“를 소개합니다. 인간의 도움 없이, AI가 스스로 문제를 만들고 풀면서 고도화되는 놀라운 훈련 방식—그 중심에 Absolute Zero Reasoner (AZR)가 있습니다.


2. 문제 정의

기존의 LLM 훈련 방식은 다음의 세 가지 한계를 지녔습니다:

  • 데이터 의존성: 인간이 만든 질문과 답변 데이터셋에 크게 의존.
  • 스케일의 어려움: 고품질 데이터셋 확보는 매우 비싸고 시간이 많이 소요됨.
  • 창의성 부족: 인간이 정의한 문제 범위에 한정된 학습.

이러한 한계를 뛰어넘기 위해 Absolute Zero는 ‘완전한 무 데이터 학습‘을 제안합니다. 인간이 만든 질문도, 정답도, 심지어 학습용 피드백도 없이—AI가 스스로 문제를 만들고 이를 풀면서 진화하는 새로운 패러다임입니다.


3. 핵심 내용 정리

Absolute Zero Paradigm이란?

기존 학습 방식과 Absolute Zero Paradigm의 비교는 아래 그림에서 잘 나타납니다:

Paradigm데이터 필요문제 생성 방식학습 방식
Supervised Fine-Tuning (SFT)인간이 만든 질문/답변 및 reasoning trace 필요없음 (고정)모방 학습
RL with Verifiable Reward (RLVR)인간이 만든 질문/정답 필요없음 (고정)강화 학습
Absolute Zero (AZ)0 데이터AI가 생성AI가 문제도 만들고 답도 검증하며 학습

AZR: Absolute Zero Reasoner

AZR은 하나의 LLM이 두 가지 역할을 수행합니다:

  • Proposer: 학습에 적합한 새로운 문제를 생성
  • Solver: 생성된 문제를 해결하고 학습

학습 방식: Self-play + 강화 학습

  1. Propose 단계: 문제 유형 (추론, 귀납, 연역)을 설정하고, 기존 문제 기록에서 아이디어를 얻어 새로운 코딩 문제를 생성합니다.
  2. Validate 단계: 생성된 문제가 유효한지 코드 실행기로 검증합니다.
  3. Solve 단계: 생성된 문제를 해결하고, 정답 여부를 실행기를 통해 판단합니다.
  4. Reward 계산: 학습 잠재력이 높은 문제에 대해 proposer에 보상, 정답을 맞춘 solver에 보상.
  5. TRR++ 알고리즘으로 RL 업데이트.

세 가지 문제 유형

유형의미예시
Deduction (연역)입력과 프로그램 → 출력을 추론def f(x): return x + 1, 입력 3 → 출력 4
Abduction (귀납)프로그램과 출력 → 입력을 추론def f(x): return x * 2, 출력 10 → 입력 5
Induction (귀납)입력/출력 쌍 일부 → 프로그램 추론[(1, 2), (2, 4)]def f(x): return x*2

주요 알고리즘 구조

Propose (문제 생성) → Validate (검증) → Solve (문제 해결) → Reward → Update

4. 주요 결과 요약

  • 무 데이터 학습에도 불구하고 SOTA 성능 달성: HumanEval+ 및 AIME 등 주요 benchmark에서 기존 zero-shot reasoner보다 높은 정확도.
  • Cross-domain generalization 우수: 코드로 훈련한 AZR이 수학 문제 해결 능력까지 크게 향상.
  • 스케일에 따라 성능 증가: 3B, 7B, 14B 모델 모두에서 훈련량에 비례해 성능 향상.
  • 중간 계획 행동 자연 발생: 코드 내 주석을 이용해 step-by-step 추론하는 행동 출현 (ReAct prompting 유사).
  • 다양성과 복잡성 증가: 훈련이 진행될수록 문제의 복잡도와 다양성이 증가.

5. 리뷰 / 추가 논의

Absolute Zero의 가장 혁신적인 부분은 인간 중심의 데이터 구성 패러다임을 근본적으로 뒤흔든다는 점입니다. 지금까지는 “좋은 문제를 만들 줄 아는 인간”이 AI 성능 향상의 핵심이었지만, 이제는 “AI가 학습에 좋은 문제를 스스로 정의하고 탐색”합니다.

하지만 몇 가지 숙제도 남아 있습니다:

  • 안전성 문제: 일부 학습 중에 비정상적이고 위험한 발언(“uh-oh moment”)이 관찰됨.
  • 환경 구성의 중요성: 검증 가능한 피드백 환경이 성능의 핵심이며, 미래에는 자연어/수학/웹 등의 다양한 환경으로 확장 가능.
  • 탐험(Exploration)의 메타 문제: 문제 공간의 탐험 자체를 AI가 학습하도록 하는 것은 매우 도전적이지만, 이 방향이 “AI 스스로 사고하고 학습하는 진정한 지능”에 가까움.

6. 요약 (Conclusion)

Absolute Zero Reasoner는 인간이 제공하지 않은 문제를 생성하고 푸는 최초의 강화학습 기반 자가 학습 시스템입니다. 기존 모델들이 엄청난 양의 사람 손을 필요로 했다면, AZR은 단 하나의 예제 없이도 고차원적 추론 능력을 길러냅니다.
이는 향후 AGI 및 데이터 없는 학습의 핵심 방향을 보여주는 시금석이라 할 수 있습니다.


7. 참고 자료 링크