RFT Launch, How OpenAI Improves Its Models & the State of AI Agents Today

YouTube 영상 “RFT Launch, How OpenAI Improves Its Models & the State of AI Agents Today” 을 정리한 글입니다.

🧠 Summary

OpenAI의 Michelle Pokris는 GPT-4.1의 개발을 주도한 핵심 인물로서, 모델을 실제 개발자 사용 환경에 더욱 적합하게 만드는 데 집중했습니다. 이 인터뷰에서는 GPT-4.1의 개발 과정과 방향성, 에이전트 기술의 현재와 미래, RFT(RL-based Fine Tuning)의 역할과 가능성에 대해 폭넓게 다룹니다. 모델 성능 향상 뒤에는 철저한 사용자 피드백 수집과 분석, 그리고 내부적인 평가 체계 개선이 있었음을 강조합니다.

🔍 00:00 – GPT-4.1은 어떻게 개발되었는가?

사용성과 실제 개발 환경에 초점을 맞춘 개발

GPT-4.1은 단순히 벤치마크 성능이 아닌 개발자들이 실제로 쓰기 편한 모델을 만드는 것이 목표였습니다. 사용자의 피드백을 바탕으로 모델이 잘못 이해하는 지점, 지시를 따르지 않는 문제 등 실사용 관점에서 중요한 이슈들을 중심으로 개선해나갔습니다.

🧪 01:48 – 실사용 기반의 Eval과 내부 평가 지표

사용 사례 기반 평가 체계의 정립

OpenAI는 **실제 API 사용 데이터를 기반으로 한 eval(평가 체계)**를 만들고, 다양한 스타트업과의 협력을 통해 실질적인 문제점을 도출해 개선 방향으로 삼았습니다. 대표적인 이슈로는 “모델이 기존 세계 지식을 무시하고 프롬프트에만 집중해야 할 때 제대로 작동하지 않는 문제”가 있었습니다.

🧭 04:17 – Eval의 수명과 지속적인 갱신 필요성

벤치마크의 유효기간은 단 3개월

모델 성능이 빠르게 향상됨에 따라 기존 벤치마크는 금방 포화됩니다. 따라서 OpenAI는 3개월 단위로 새로운 eval을 발굴하고 실험하는 사이클을 유지하고 있습니다.

🤖 09:06 – 에이전트 기술의 현재 위치

명확한 목적을 가진 에이전트는 잘 작동

에이전트는 명확한 도메인과 명확한 사용자 요청이 있는 환경에서는 훌륭하게 작동합니다. 하지만 실제 환경에서는 애매한 요청과 부족한 컨텍스트로 인해 성능이 제한됩니다. 이러한 부분을 개선하기 위해선 더 나은 API 설계와 **모델의 애매함 대응 능력(steerability)**이 필요합니다.

🧑‍💻 12:29 – AI 코딩 성능의 현주소

로컬 작업은 훌륭, 전역 이해는 과제

GPT-4.1은 코딩, 특히 프론트엔드 UI 코딩에서 큰 발전을 보였습니다. 그러나 여러 파일 간의 상호 작용이 필요한 전역적 이해에서는 아직 부족한 부분이 있습니다. 코드 스타일 유지, 불필요한 변경 방지 등도 지속적인 개선 목표입니다.

⚒️ 17:34 – 기업들이 AI 모델을 활용하는 방식

성패를 가르는 요소는 “eval과 빠른 피드백 루프”

가장 성공적인 기업은 자신의 use case에 최적화된 eval 체계를 갖추고, 신모델 출시 시 빠르게 테스트하여 효율적으로 전환합니다. 또한 미래 모델을 대비하여 “방금 안 되는 기능”을 미리 준비하는 전략도 중요합니다.

🔧 21:37 – RFT(RL-based Fine Tuning)와 그 가능성

소량의 데이터로 정밀 튜닝 가능

RFT는 OpenAI 내부에서도 모델 성능 향상에 사용되는 방식으로, 데이터 효율성이 매우 뛰어납니다. 특히 칩 설계, 생명공학, 제약 연구 등 검증 가능한 고정밀 도메인에 효과적입니다. OpenAI는 이를 공식 GA(General Availability)로 곧 출시할 계획입니다.

🧬 25:29 – 특화된 파운데이션 모델의 가능성

하나의 General 모델이 정답일까?

OpenAI는 가능한 한 하나의 범용 모델로 다양한 요구사항을 커버하고자 하지만, 특정 도메인에 최적화된 특화 모델이 효율적일 수 있다는 가능성도 열어두고 있습니다.

📦 28:06 – 모델 선택 전략 가이드

사용 목적별 모델 추천

기본: GPT-4.1
속도가 필요할 때: Mini 또는 Nano
문제 해결이 어려울 때: GPT-4 Mini → GPT-4.0 → RFT

🧩 31:46 – 누구나 AI 전문가가 될 수 있을까?

정답은 “Yes”, 일반 개발자의 역량으로 충분

OpenAI는 AI 전문가보다 “문제를 명확히 알고 데이터를 준비할 수 있는 일반 개발자”가 유리하다고 판단합니다. 향후 더 많은 기능들이 쉽게 사용 가능해지기 때문입니다.

🔬 32:10 – AI로 AI를 개선하는 흐름

강력한 모델이 더 강력한 모델을 만든다

강화 학습과 시뮬레이션 데이터를 활용해 모델이 자신을 개선하는 구조가 빠르게 자리 잡고 있으며, 이는 향후 모델 개발 속도를 더욱 가속화할 것입니다.

🧠 Review

이 인터뷰는 GPT-4.1의 정교한 개발 과정과 OpenAI의 철학을 엿볼 수 있는 매우 밀도 높은 대화였습니다. 특히 인상적인 부분은 단순히 “성능이 좋다”가 아니라, “사용자에게 기쁨을 주는 경험”을 중심으로 모델을 만들었다는 점입니다. 이는 사용자 피드백 기반 평가와 세밀한 튜닝에서 비롯되며, 그 모든 결정이 철저히 실사용자 중심임을 알 수 있습니다.

또한 RFT를 통해 이제 기업은 자신만의 목적에 특화된 AI 모델을 빠르게 훈련할 수 있게 되었으며, 이는 향후 AI의 민주화와도 연결되는 흐름입니다. 벤치마크에만 의존하지 않고, 각자의 eval을 통해 자체적인 지표를 만들고 개선하는 문화가 더욱 중요해질 것입니다. 지금의 GPT-4.1이 개발자 중심이었다면, 앞으로의 GPT-5는 다양한 사용자 군의 개성과 요구를 포용하는 더욱 범용적이며 맞춤형인 형태로 진화할 것으로 기대됩니다.