이번에 OpenAI가 발표한 GPT-4o의 이미지 생성 기능은 단순히 “예쁜 그림”을 그리는 것을 넘어서, 정확하고 실용적인 시각적 커뮤니케이션 도구로 진화된 듯 하다.
이 포스트에서는 이번에 업데이트 된 GPT-4o의 이미지 생성 기능이 어떤 점에서 획기적인지, 어떤 방식으로 다른 이미지 생성 모델과 차별화되는지, 그리고 어떻게 활용할 수 있는지를 자세히 알아보도록 하자.
GPT-4o 이미지 생성 업데이트
ChatGPT를 사용하면서 가장 아쉬운 부분이 바로 이미지 생성이었다. Dall-E가 이미 DALL·E 3까지 출시 되었지만, 생성된 이미지는 실제 우리가 활용하기에는 부족한 부분이 많았다.
예를 들어, 간단한 다이어그램이나 포스터를 만들려고 해도 텍스트가 뭉개지거나 비문이 생기고,
사진 스타일의 이미지도 디테일이 부족하거나 일관성이 떨어지는 경우가 많았다.
한 장의 그림으로 정보를 정확하게 전달하거나, 설명을 시각적으로 보완하는 데에는 한계가 있었던 것이다.
하지만 이제, 그 한계를 GPT-4o가 넘어섰다는 평가를 받고 있다. GPT-4o의 이미지 생성은 기존의 이미지 생성기를 단순히 업그레이드한 수준이 아니라, 텍스트와 이미지가 진정으로 통합된 경험을 할 수 있게 된 듯 하다.


업데이트 이전에 생성했던 이미지가 있어서 새로 생성하여 비교해 보았다.
프롬프트는 단순하게 “Women’s EAU FRAICHE를 그려줘” 이었다.
업데이트 이전에는 우선 알파벳도 정확하게 표현하지 못했었고, 텍스트도 뭉개지는 현상이 보였다.
이미지의 형태도 따로 지정하지 않았지만, 이전에는 수채화 느낌으로 그렸었고, 업데이트 된 후는 사진같이 표현하였다.
업데이트 내용
OpenAI에 따르면 GPT-4o는 다음과 같은 특징을 통해 이미지 생성의 수준을 한 단계 끌어올렸다.
- 정확한 텍스트 렌더링: 메뉴, 초대장, 도표 등에 사용되는 텍스트 기반 이미지 생성의 품질이 획기적으로 개선되어, 실제 인쇄 가능한 수준의 타이포그래피 구현이 가능하다.
- 문맥 인식 이미지 생성: 대화 내용과 이전에 업로드한 이미지, 사용자의 의도를 정확히 파악하고 반영하여 일관된 이미지 시리즈를 생성할 수 있다.
- 포토리얼리즘 + 창의적 스타일: 현실적인 질감, 조명, 배경은 물론, 만화, 수채화, 미니멀 아트 등 다양한 스타일로 표현 가능하다.
- 다중 객체 제어력: 최대 20개 이상의 개체를 정확히 인식하고, 해당 속성(색, 위치, 관계 등)을 명확히 반영하여 복잡한 이미지도 잘 구성한다.
그동안 “텍스트 생성은 ChatGPT, 이미지 생성은 미드저니나 스테이블디퓨전” 이라는 분리된 작업 흐름이 존재했다면,
이제는 GPT-4o 하나로 텍스트와 이미지, 그리고 그 사이의 모든 표현까지 자유롭게 오갈 수 있게 된 것이다.
업데이트 이후 이미지 생성 예시
다양한 프롬프트를 통해 얼마나 의도한 바와 얼마나 유사하게 이미지를 생성할 수 있는지 테스트하였다.
테스트는 해당 프롬프트로 매번 새로운 대화를 생성하여, 처음 생성한 이미지이다.
- 과학 실험 인포그래픽
- GPT-4o는 빛의 분산, 원리 설명, 수식 등 정보를 인포그래픽으로 작성해줘.

- 감성 메뉴판 디자인
- 전통 한식당 메뉴를 손그림 스타일로, 정확한 텍스트와 함께 생성해줘.

- 위트 있는 간판 이미지
- “마법의 빗자루 주차 금지”, “루돌프 주차 허용(12/24~25)” 간판을 리얼한 뉴욕 거리 배경에 삽입 한 이미지를 생성해줘.

- 광고/포스터 제작
- 배경: 조형물이 스케치에서 리얼 이미지로 변하는 시각적 흐름을 표현하고,
- 텍스트: “Form follows function”, “This entire poster was generated by ChatGPT image generation.”를 포함하여 이미지를 생성해줘.

이번에는 동일한 이미지를 반복 생성하면서 수정을 얼마나 잘 하는지 테스트하였다.
- 게임 캐릭터 디자인 반복 생성
- ‘고양이 탐정’을 모자로 꾸민 이미지를 생성해줘 → RPG 인터페이스 추가해줘 → 3인칭 뷰로 확장해줘 의 대화로 점진적 수정



한번 생성된 이미지는 그 이미지의 특성을 이어 받아 추가 이미지를 잘 생성하는 모습을 볼 수 있었다.
아쉬운 점
GPT-4o 이미지 생성 업데이트 이후 이미지의 퀄리티는 좋아졌지만, 아래 부분들이 아쉽게 느껴졌다.
- 이미지 생성 소요 시간 증가
- 이미지 생성 제한
이번 업데이트로 많은 사용자들이 이미지를 생성하고 있는 듯 했다.
OpenAI Plus를 구독하고 있는 중임에도 5개정도 이미지를 생성하고 나면, 제한에 걸린다고 메세지가 뜨는 것을 확인할 수 있었다.

한계점
OpenAI에 의하면, GPT-4o의 이미지 생성은 놀라운 수준이지만, 완벽하진 않다고 하며, 아래와 같은 문제점은 지속 개선될 예정이다.
문제점 | 설명 |
---|---|
크로핑 오류 | 포스터 등 긴 이미지를 너무 타이트하게 자를 수 있음 |
환각(hallucination) | 문맥이 부족하면 잘못된 정보나 요소를 생성할 수 있음 |
복잡한 다국어 처리 | 비라틴 문자 렌더링이 다소 부정확할 수 있음 |
정밀 편집 부족 | 이미지의 일부분만 수정할 때, 다른 부분까지 바뀌는 경우가 있음 |
세부 정보 처리 한계 | 너무 작은 텍스트나 복잡한 도표는 왜곡될 수 있음 |
ChatGPT를 사용하면서 텍스트 생성 위주로 사용하던 사용자들도 이제 이미지 생성도 활용할 수 있는 수준이 된 것 같아 매우 기쁘게 생각한다. 구독료를 줄일 수 있도록 다른 생성형AI의 기능들도 하루빨리 개발되고 적용되기를 기대해 본다.
ChatGPT에 대해 좀 더 알고 싶다면?
- OpenAI API 비용 최적화 가이드(최신 ChatGPT-4.5모델 포함)
- [ChatGPT] Batch API 사용 완벽 가이드(코드 포함): 저렴한 비용과 효율적인 대규모 처리 방법
- [ChatGPT] 챗지피티 API 사용 방법 예제 코드(openai 1.0.0 이상 버전)
- [ChatGPT API] 챗지피티 API Key 발급 및 환경변수 등록 방법 가이드
- [ChatGPT] 챗지피티 GPT-4o 업데이트 후 신규 가격 정책 및 API 가격 비교
- ChatGPT의 새로운 업데이트: ‘프로젝트’ 기능 활용 가이드
- [ChatGPT] 초거대 AI 언어 모델(LLMs), Chat GPT의 버전별 차이점
- ChatGPT 신규 업데이트: ChatGPT o1 & ChatGPT Pro 발표
- ChatGPT의 새로운 검색 기능: 온라인 정보 접근의 혁신