[ChatGPT 신규 업데이트] GPT-4o 모델 발표, 혁신적인 멀티모달 인공지능의 탄생

이번 글에서는 기존 GPT-4 Gurbo보다 빨라지고 저렴해진 ‘GPT-4o’를 소개하고자 한다.

‘GPT-4o’는 2024년 5월 13일 Release 한 OpenAI의 ChatGPT 최신 모델로, ‘GPT-4o’가 무엇인지, 어떤 혁신적인 기능을 가지고 있는지, 그리고 이 모델이 어떤 변화를 가져올지 자세히 설명하고자 한다.

GPT-4o란?

‘GPT-4o’는 OpenAI가 새롭게 발표한 플래그십 모델로, 텍스트, 음성, 이미지 데이터를 실시간으로 처리할 수 있는 능력을 가지고 있다. ‘o’는 ‘omni’를 의미하며, 이는 다양한 입력과 출력을 통합적으로 처리할 수 있음을 나타낸다. ‘GPT-4o’는 사람과의 상호작용을 훨씬 더 자연스럽게 만들기 위해 설계되었다.

image 1 [ChatGPT 신규 업데이트] GPT-4o 모델 발표, 혁신적인 멀티모달 인공지능의 탄생 데이터사이언스, 머신러닝, 생성형 AI — 네이버 영어사전

주요 기능 및 성능

멀티모달 입력 및 출력

‘GPT-4o’의 가장 큰 혁신 중 하나는 다양한 입력과 출력을 처리할 수 있는 멀티모달 능력이다. 이는 단순히 텍스트뿐만 아니라 음성 및 이미지 데이터를 동시에 이해하고 생성할 수 있음을 의미한다.

입력 처리: ‘GPT-4o’는 텍스트, 음성, 이미지를 입력으로 받을 수 있다. 예를 들어, 사용자가 음성으로 질문을 하거나, 이미지를 업로드하거나, 텍스트를 입력할 수 있다.
출력 생성: 모델은 텍스트 응답, 음성 응답, 이미지 생성 등 다양한 형태의 출력을 제공할 수 있다. 이는 더 풍부하고 직관적인 상호작용을 가능하게 한다.

반응 속도

‘GPT-4o’는 음성 입력에 대해 매우 빠른 반응 속도를 자랑한다. 평균 반응 시간은 320밀리초로, 이는 사람과 대화할 때 느껴지는 자연스러운 반응 시간과 유사하다. 음성 입력에 대한 최소 반응 시간은 232밀리초에 불과하다.

성능 향상

‘GPT-4o’는 ‘GPT-4 Turbo’와 비교했을 때 성능 면에서 큰 향상을 이루었다.

텍스트 처리: 영어와 코딩 텍스트에서는 ‘GPT-4 Turbo’와 비슷한 성능을 유지하면서도, 비영어권 언어에서는 더욱 향상된 성능을 보여준다.
비용 효율성: ‘GPT-4 Turbo’ 대비 50% 저렴한 API 사용 비용을 제공한다. 이는 더 많은 사용자와 개발자들이 비용 부담 없이 고성능 AI를 활용할 수 있게 한다.
처리 속도: 모델의 처리 속도가 2배 빨라졌다. 이는 더 많은 작업을 더 짧은 시간 내에 처리할 수 있음을 의미한다.

음성 및 비전 이해

‘GPT-4o’는 음성 인식 및 비전 이해 능력이 크게 향상되었다.

음성 인식: ‘Whisper-v3’와 비교했을 때, 모든 언어에서 더욱 뛰어난 음성 인식 성능을 자랑한다. 특히 저자원 언어_{(언어 자원(데이터)이 부족한 언어)}에서도 우수한 성능을 보인다.
음성 번역: 음성 번역 성능에서도 최첨단 성과를 이루어, ‘Whisper-v3’를 능가하는 결과를 보여준다.
비전 이해: ‘GPT-4o’는 다양한 시각적 인식을 필요로 하는 벤치마크에서 최첨단 성능을 발휘한다. 이는 이미지 내의 객체 인식, 도표 해석 등 여러 분야에서 뛰어난 성능을 보임을 의미한다.

단일 모델 통합

‘GPT-4o’는 텍스트, 음성, 이미지 데이터를 단일 모델로 통합하여 처리한다. 이는 입력 및 출력 간의 정보 손실을 최소화하고, 더 자연스럽고 일관된 상호작용을 가능하게 한다.

통합 처리: 이전에는 음성 모드를 사용하기 위해 여러 모델이 연계되어야 했지만, ‘GPT-4o’는 단일 모델로 모든 작업을 처리한다. 이는 음성 톤, 여러 화자의 음성, 배경 소음 등을 더 잘 인식하고, 웃음, 노래, 감정 표현 등의 다양한 음성 출력을 생성할 수 있게 한다.

안전성

‘GPT-4o’는 설계 단계부터 안전성을 고려하여 제작되었다.

데이터 필터링: 훈련 데이터에서 안전하지 않은 내용을 필터링하여 모델의 안전성을 높였다.
행동 조정: 포스트 트레이닝을 통해 모델의 행동을 세밀하게 조정하였다.
안전 시스템: 새로운 안전 시스템을 도입하여 음성 출력에 대한 안전성을 확보했다. 모델의 음성 출력은 미리 정해진 음성으로 제한되며, 기존의 안전 정책을 준수한다.

성능 평가

‘GPT-4o’는 다양한 벤치마크 테스트에서 우수한 성능을 입증하였다. 텍스트, 음성, 이미지 처리에서 모두 뛰어난 성능을 보여주었으며, 특히 비영어권 언어 텍스트 처리와 음성 인식, 이미지 이해에서 크게 향상된 결과를 보였다. 여기서 주요 성능 평가 항목들을 자세히 살펴보자.

텍스트 평가

Zero-shot COT_{(Chain of Thought)} MMLU_{(Multitask Multilingual Understanding)}

모델이 사전 학습 없이 주어진 문제를 해결하는 능력을 평가하는 테스트인 Zero-shot COT_{(Chain of Thought)} 방식의 MMLU 벤치마크에서 ‘GPT-4o’는 88.7%라는 새로운 최고 점수를 기록했다. 이는 ‘GPT-4o’는 다양한 언어와 주제에 대해 뛰어난 이해력을 보여준다는 것을 의미한다.

5-shot no-CoT MMLU

모델이 몇 개의 예시를 보고 학습한 후 주어진 문제를 해결하는 능력을 평가하는 테스트인 5-shot no-CoT 방식의 MMLU에서도 ‘GPT-4o’는 87.2%의 높은 점수를 기록했다. ‘GPT-4o’는 적은 예시로도 문제를 정확히 이해하고 해결할 수 있음을 의미한다.

image 6 [ChatGPT 신규 업데이트] GPT-4o 모델 발표, 혁신적인 멀티모달 인공지능의 탄생 데이터사이언스, 머신러닝, 생성형 AI

음성 평가

ASR_{(Automatic Speech Recognition)} 성능

‘GPT-4o’는 ‘Whisper-v3’보다 뛰어난 음성 인식 성능을 보인다. 특히 저자원 언어에서도 우수한 성능을 발휘하여 다양한 언어의 음성을 정확하게 인식할 수 있다. 이는 ‘GPT-4o’의 멀티모달 학습 능력이 음성 데이터 처리에서도 큰 성과를 이루었음을 의미한다.

image 7 [ChatGPT 신규 업데이트] GPT-4o 모델 발표, 혁신적인 멀티모달 인공지능의 탄생 데이터사이언스, 머신러닝, 생성형 AI

음성 번역 성능

‘GPT-4o’는 음성 번역에서도 최첨단 성능을 보여준다. MLS_{(Multilingual Speech)} 벤치마크에서 Whisper-v3를 능가하는 결과를 기록하였다. 이는 ‘GPT-4o’가 다양한 언어 간의 음성 데이터를 정확하게 번역할 수 있음을 의미한다.

image 8 [ChatGPT 신규 업데이트] GPT-4o 모델 발표, 혁신적인 멀티모달 인공지능의 탄생 데이터사이언스, 머신러닝, 생성형 AI

비전 평가

M3Exam

M3Exam 벤치마크는 다국어 및 시각적 평가를 포함하는 테스트로, 다른 국가의 표준 시험 문제 중 도표와 그림을 포함하는 다중 선택 질문을 평가한다. ‘GPT-4o’는 모든 언어에서 ‘GPT-4’보다 우수한 성능을 보여주었으며, 이는 모델의 시각적 이해 능력이 크게 향상되었음을 나타낸다.

image 9 [ChatGPT 신규 업데이트] GPT-4o 모델 발표, 혁신적인 멀티모달 인공지능의 탄생 데이터사이언스, 머신러닝, 생성형 AI

비전 이해 평가

‘GPT-4o’는 다양한 시각적 인식 벤치마크에서 최고의 성능을 보인다. 여기에는 0_(zero)-shot 방식의 MMMU_{(Multi-Modal Multi-Task Understanding)}, MathVista_{(수학적문제를 해결하기 위해 설계된 평가 벤치마크)}, ChartQA_{(차트와 그래프 해석 능력을 평가하기 위해 설계된 벤치마크)} 등이 포함된다. ‘GPT-4o’는 사전 학습 없이도 복잡한 시각적 데이터를 이해하고 분석하는 데 뛰어난 능력을 발휘한다.

image 10 [ChatGPT 신규 업데이트] GPT-4o 모델 발표, 혁신적인 멀티모달 인공지능의 탄생 데이터사이언스, 머신러닝, 생성형 AI

언어 토크나이제이션

‘GPT-4o’는 새로운 토크나이제이션 기술을 도입하여, 다양한 언어에서 토큰 수를 크게 줄였다. 이는 데이터 압축 효율성을 높이고, 텍스트 처리를 더욱 효율적으로 만든다.
한국어는 토큰이 1.7배 감소되었다.

구자라티어: 145개에서 33개 토큰으로 감소 (4.4배 감소)
텔루구어: 159개에서 45개 토큰으로 감소 (3.5배 감소)
타밀어: 116개에서 35개 토큰으로 감소 (3.3배 감소)
마라티어: 96개에서 33개 토큰으로 감소 (2.9배 감소)
힌디어: 90개에서 31개 토큰으로 감소 (2.9배 감소)
우르두어: 82개에서 33개 토큰으로 감소 (2.5배 감소)
아랍어: 53개에서 26개 토큰으로 감소 (2.0배 감소)
페르시아어: 61개에서 32개 토큰으로 감소 (1.9배 감소)
러시아어: 39개에서 23개 토큰으로 감소 (1.7배 감소)
한국어: 45개에서 27개 토큰으로 감소 (1.7배 감소)
베트남어: 46개에서 30개 토큰으로 감소 (1.5배 감소)
중국어: 34개에서 24개 토큰으로 감소 (1.4배 감소)
일본어: 37개에서 26개 토큰으로 감소 (1.4배 감소)
터키어: 39개에서 30개 토큰으로 감소 (1.3배 감소)
이탈리아어: 34개에서 28개 토큰으로 감소 (1.2배 감소)
독일어: 34개에서 29개 토큰으로 감소 (1.2배 감소)
스페인어: 29개에서 26개 토큰으로 감소 (1.1배 감소)
포르투갈어: 30개에서 27개 토큰으로 감소 (1.1배 감소)
프랑스어: 31개에서 28개 토큰으로 감소 (1.1배 감소)
영어: 27개에서 24개 토큰으로 감소 (1.1배 감소)

‘GPT-4o’는 이러한 성능 평가를 통해 다양한 언어와 상황에서 뛰어난 이해력과 처리 능력을 보여주었다. 이는 ‘GPT-4o’가 텍스트, 음성, 이미지 데이터를 통합적으로 처리하여 더욱 자연스럽고 효율적인 상호작용을 가능하게 함을 의미한다.

image 2 [ChatGPT 신규 업데이트] GPT-4o 모델 발표, 혁신적인 멀티모달 인공지능의 탄생 데이터사이언스, 머신러닝, 생성형 AI

image 3 [ChatGPT 신규 업데이트] GPT-4o 모델 발표, 혁신적인 멀티모달 인공지능의 탄생 데이터사이언스, 머신러닝, 생성형 AI

결론

‘GPT-4o’는 인공지능의 새로운 지평을 여는 혁신적인 모델이라 할 수 있다. 텍스트, 음성, 이미지 데이터를 실시간으로 통합적으로 처리할 수 있는 능력은 인간과의 상호작용을 한층 더 자연스럽고 효율적으로 만들어 줄 것이며, 특히 다양한 언어에서 뛰어난 성능을 발휘하며, 음성 인식과 비전 이해 능력이 크게 향상된 점은 ‘GPT-4o’의 강력한 특징이다.

OpenAI는 ‘GPT-4o’ 개발과 Release를 통해 더욱 안전하고 효율적인 AI 기술을 제공하며, 이를 통해 다양한 분야에서 인공지능의 활용 가능성을 매우 빠르게 넓혀가고 있다. 비용 효율성, 반응 속도, 멀티모달 처리 능력 등에서 큰 진전을 이룬 ‘GPT-4o’는 앞으로도 인공지능 기술의 발전에 중요한 역할을 할 것이다.

여러분도 ‘GPT-4o’의 놀라운 기능과 성능을 직접 경험해 보시길 바란다. 이를 통해 인공지능이 우리의 일상과 다양한 산업에 어떤 변화를 가져올지 기대해볼 수 있을 것이다.

[ChatGPT 신규 업데이트] GPT-4o 모델 발표, 혁신적인 멀티모달 인공지능의 탄생

GPT-4o란?