1. 논문 제목
Step1X-Edit: A Practical Framework for General Image Editing
GPT-4o·Gemini2 Flash급 오픈소스 이미지 편집
2. 짧은 개요 (Intro)
오늘날 우리는 자연어로 이미지 편집을 지시할 수 있는 시대에 살고 있습니다. 그러나 최첨단 편집 능력을 지닌 GPT-4o나 Gemini2 Flash는 폐쇄 소스 모델이기 때문에 재현성과 투명성에 제약이 있습니다. 이 글에서는 성능 면에서 이들에 근접하면서도 완전한 오픈소스로 공개된 Step1X-Edit 모델을 소개합니다. 이미지 이해를 위한 멀티모달 LLM과 확산 디코더를 결합한 이 프레임워크는 11가지 실용 편집 작업을 지원하며, 실제 사용자 지침으로 구성된 GEdit-Bench 벤치마크에서 탁월한 성능을 입증했습니다. 이 글을 통해 최신 오픈소스 편집 동향과 Step1X-Edit의 내부 구조, 활용 가능성을 한눈에 파악할 수 있습니다.
3. 문제 정의
- 편집 정확도와 재현성의 균형: 기존 오픈소스 편집 모델은 텍스트 인코더(CLIP, T5 등) + 확산 트랜스포머 구조에서 미묘하거나 조합적인 지시를 완벽히 따르기 어렵습니다.
- 데이터 품질과 다양성 부족: 공개된 AnyEdit, OmniEdit 같은 데이터셋은 규모나 품질 면에서 GPT-4o 수준 모델 학습에 충분치 않습니다.
- 실제 사용자 지침과 평가의 부재: 대부분의 벤치마크가 합성 지침으로만 구성되어 있어, 실제 응용에서의 효용을 정확히 평가하기 어렵습니다.
4. 핵심 내용 정리
4.1 대규모 고품질 데이터 파이프라인
- 11개 편집 작업 카테고리: Subject Addition/Removal, Background Change, Color Alteration, Material Modification, Motion Change, Portrait Beautification, Tone Transformation, Text Modification, Style Transfer 등
- 20M+ 생성 → 1M+ 엄선: 웹 크롤링→MLLM/GPT-4o 기반 자동라벨링→SAM-2, Flux-Fill 등 알고리즘 필터링→인간 검수 과정을 거쳐 1백만 건 이상의 고품질 트리플렛(source image, instruction, target image) 확보
데이터셋 | 규모 | 비율(필터 전→후) |
---|---|---|
Step1X-Edit 전체 | 20M | – |
Step1X-Edit-HQ | 1M | 20:1 필터링 후 |
AnyEdit | 1.25M | – |
OmniEdit | 3.7M | – |
4.2 통합 모델 아키텍처
- 멀티모달 LLM(Qwen-VL): 입력 이미지와 편집 지시를 한 번에 처리하여 편집 관련 임베딩 추출
- Connector 모듈: LLM 임베딩을 DiT(Diffusion in Transformer) 모델의 텍스트 입력 자리에 치환할 수 있도록 토큰 정제
- DiT 기반 확산 디코더: 재구성과 편집 지시 추종 사이 균형을 맞춰 고품질 최종 이미지 생성
4.3 GEdit-Bench 벤치마크
- 606개 실제 사용자 지침으로 구성된 평가용 데이터셋
- **Intersection subset(434개)**과 **Full set(606개)**로 나누어, 각 모델의 응답 거부 사례 처리
- VIEScore(Semantic Consistency, Perceptual Quality, Overall) 기준 자동 평가 및 55명 사용자 대상 주관식 선호도 조사 수행
5. 주요 결과 요약
모델 | VIEScore Overall (Full set) | 사용자 선호도 (UP-Full) |
---|---|---|
Step1X-Edit | 7.10 | 6.94 |
GPT-4o | 7.65 | 7.13 |
Gemini2 Flash | 6.98 | 6.60 |
AnyEdit | 3.36 | – |
OmniGen | 6.41 | – |
- Step1X-Edit는 오픈소스 중 가장 높은 VIEScore를 기록했고, GPT-4o에 근접한 수준의 품질을 보여줍니다.
- 사용자 선호도 조사에서도 상위권(2위)을 차지, 실용성 면에서 강력한 경쟁력을 입증했습니다.
6. 리뷰 / 추가 논의
- 데이터 파이프라인의 재사용성: 공개된 레퍼런스를 바탕으로 신규 작업에 맞춰 파이프라인을 확장 가능
- 모델 경량화 및 실시간 응답: 대규모 MLLM+DiT 구조의 실시간 서비스 적용을 위해 경량화 연구 필요
- 다중 편집 단계 지원: 현재 단일 지시-단일 결과 구조를 넘어, 다단계·대화형 편집 워크플로우 통합 검토
- 안전성·윤리성: 사용자 업로드 이미지의 프라이버시·저작권 보호를 위한 자동 필터링 및 정책 연계
7. 요약 (Conclusion)
- Step1X-Edit는 오픈소스 이미지 편집 분야에서 GPT-4o·Gemini2 Flash 급 성능을 목표로 개발된 최초의 모델입니다.
- 대규모 고품질 데이터와 통합 멀티모달+확산 아키텍처가 결합되어, 11개 주요 편집 작업에서 탁월한 성능을 입증했습니다.
- 향후 경량화, 다단계 편집, 윤리·안전성 강화를 통해 실무 적용 범위를 더욱 넓힐 수 있을 것으로 기대됩니다.
8. 참고 자료 링크
- 논문 원문 (arXiv): https://arxiv.org/abs/2504.17761
- GitHub 리포지토리: https://github.com/stepfun-ai/Step1X-Edit
- GEdit-Bench 설명 및 데이터: 논문 부록 및 레포지토리 내 문서