Step1X-Edit: A Practical Framework for General Image Editing

1. 논문 제목

Step1X-Edit: A Practical Framework for General Image Editing
GPT-4o·Gemini2 Flash급 오픈소스 이미지 편집

2. 짧은 개요 (Intro)

오늘날 우리는 자연어로 이미지 편집을 지시할 수 있는 시대에 살고 있습니다. 그러나 최첨단 편집 능력을 지닌 GPT-4o나 Gemini2 Flash는 폐쇄 소스 모델이기 때문에 재현성과 투명성에 제약이 있습니다. 이 글에서는 성능 면에서 이들에 근접하면서도 완전한 오픈소스로 공개된 Step1X-Edit 모델을 소개합니다. 이미지 이해를 위한 멀티모달 LLM과 확산 디코더를 결합한 이 프레임워크는 11가지 실용 편집 작업을 지원하며, 실제 사용자 지침으로 구성된 GEdit-Bench 벤치마크에서 탁월한 성능을 입증했습니다. 이 글을 통해 최신 오픈소스 편집 동향과 Step1X-Edit의 내부 구조, 활용 가능성을 한눈에 파악할 수 있습니다.

3. 문제 정의

편집 정확도와 재현성의 균형: 기존 오픈소스 편집 모델은 텍스트 인코더(CLIP, T5 등) + 확산 트랜스포머 구조에서 미묘하거나 조합적인 지시를 완벽히 따르기 어렵습니다.
데이터 품질과 다양성 부족: 공개된 AnyEdit, OmniEdit 같은 데이터셋은 규모나 품질 면에서 GPT-4o 수준 모델 학습에 충분치 않습니다.
실제 사용자 지침과 평가의 부재: 대부분의 벤치마크가 합성 지침으로만 구성되어 있어, 실제 응용에서의 효용을 정확히 평가하기 어렵습니다.

4. 핵심 내용 정리

4.1 대규모 고품질 데이터 파이프라인

11개 편집 작업 카테고리: Subject Addition/Removal, Background Change, Color Alteration, Material Modification, Motion Change, Portrait Beautification, Tone Transformation, Text Modification, Style Transfer 등
20M+ 생성 → 1M+ 엄선: 웹 크롤링→MLLM/GPT-4o 기반 자동라벨링→SAM-2, Flux-Fill 등 알고리즘 필터링→인간 검수 과정을 거쳐 1백만 건 이상의 고품질 트리플렛(source image, instruction, target image) 확보

데이터셋	규모	비율(필터 전→후)
Step1X-Edit 전체	20M	–
Step1X-Edit-HQ	1M	20:1 필터링 후
AnyEdit	1.25M	–
OmniEdit	3.7M	–

4.2 통합 모델 아키텍처

멀티모달 LLM(Qwen-VL): 입력 이미지와 편집 지시를 한 번에 처리하여 편집 관련 임베딩 추출
Connector 모듈: LLM 임베딩을 DiT(Diffusion in Transformer) 모델의 텍스트 입력 자리에 치환할 수 있도록 토큰 정제
DiT 기반 확산 디코더: 재구성과 편집 지시 추종 사이 균형을 맞춰 고품질 최종 이미지 생성

4.3 GEdit-Bench 벤치마크

606개 실제 사용자 지침으로 구성된 평가용 데이터셋
**Intersection subset(434개)**과 **Full set(606개)**로 나누어, 각 모델의 응답 거부 사례 처리
VIEScore(Semantic Consistency, Perceptual Quality, Overall) 기준 자동 평가 및 55명 사용자 대상 주관식 선호도 조사 수행

5. 주요 결과 요약

모델	VIEScore Overall (Full set)	사용자 선호도 (UP-Full)
Step1X-Edit	7.10	6.94
GPT-4o	7.65	7.13
Gemini2 Flash	6.98	6.60
AnyEdit	3.36	–
OmniGen	6.41	–

Step1X-Edit는 오픈소스 중 가장 높은 VIEScore를 기록했고, GPT-4o에 근접한 수준의 품질을 보여줍니다.
사용자 선호도 조사에서도 상위권(2위)을 차지, 실용성 면에서 강력한 경쟁력을 입증했습니다.

6. 리뷰 / 추가 논의

데이터 파이프라인의 재사용성: 공개된 레퍼런스를 바탕으로 신규 작업에 맞춰 파이프라인을 확장 가능
모델 경량화 및 실시간 응답: 대규모 MLLM+DiT 구조의 실시간 서비스 적용을 위해 경량화 연구 필요
다중 편집 단계 지원: 현재 단일 지시-단일 결과 구조를 넘어, 다단계·대화형 편집 워크플로우 통합 검토

7. 요약 (Conclusion)

Step1X-Edit는 오픈소스 이미지 편집 분야에서 GPT-4o·Gemini2 Flash 급 성능을 목표로 개발된 최초의 모델입니다.
대규모 고품질 데이터와 통합 멀티모달+확산 아키텍처가 결합되어, 11개 주요 편집 작업에서 탁월한 성능을 입증했습니다.
향후 경량화, 다단계 편집, 윤리·안전성 강화를 통해 실무 적용 범위를 더욱 넓힐 수 있을 것으로 기대됩니다.

8. 참고 자료 링크

논문 원문 (arXiv): https://arxiv.org/abs/2504.17761
GitHub 리포지토리: https://github.com/stepfun-ai/Step1X-Edit
GEdit-Bench 설명 및 데이터: 논문 부록 및 레포지토리 내 문서