인공지능의 연구와 개발은 상당히 긴 역사를 가지고 있지만, 지난 수년간의 빠른 진화와 특히 딥러닝의 발전은 이 분야의 활동을 확대시켰다. 딥러닝은 인공신경망을 통한 학습 방법으로, 데이터에서 복잡한 패턴을 스스로 학습할 수 있게 한다. 그 중에서도 자연어 처리(NLP)는 인간과 기계 간의 의사소통을 가능하게 하는 핵심 분야로서, 인공지능의 미래를 결정하는 데 중요한 역할을 하고 있다.
인공지능의 새로운 트랜드 – Transformer와 GPT
2017년, “Attention is All You Need”라는 논문이 발표되면서 Transformer 아키텍처가 세상에 공개되었다. 이 아키텍처는 기존의 RNN과는 달리 Attention 메커니즘에 의존하여 전체 문장을 병렬로 처리함으로써 더 큰 문맥을 이해할 수 있게 만들었으며, 이 아키텍처의 등장은 자연어 처리 분야에 혁명을 일으키게 되었다.
그리고 이 Transformer 아키텍처를 기반으로 2018년에 OpenAI는 GPT-1을 선보이게 되었다. 이 모델은 1,700만개의 파라미터를 가지며, 대량의 텍스트 데이터를 기반으로 비지도학습을 수행하여 언어 모델을 학습시킨 후, 이 모델을 다양한 자연어 처리 태스크에 대해 미세 조정하였다. 이를 통해, GPT-1은 한가지 구체적인 태스크에 특화되어 학습된 것이 아니라, 일반적인 언어 이해능력을 바탕으로 다양한 태스크를 수행할 수 있게 되었다.
ChatGPT의 개발 시기와 파라미터는 아래와 같다.
2018년: GPT-1(1,700만개 파라미터) 공개
2019년: GPT-2(15억개의 파라미터) 공개
2020년: GPT-3(1,750억개의 파라미터) 공개
2022년: GPT-3.5(1,750억개 파라미터, GPT-3를 개량해 편향성을 억제하고, 문장 생성 정밀도를 향상) 공개
2023년: GPT-4(100조개의 파라미터) 공개, GPT Plus 구독자만 사용 가능
Transformer의 기본 원리: Attention Mechanism
이러한 ChatGPT는 Transformer 아키텍처를 기반으로 학습 되었으며, Transformer의 가장 중요한 특징은 ‘Attention Mechanism’이다. 이는 모델이 입력 데이터의 어떤 부분에 집중해야 하는지를 학습하게 하는 메커니즘이다.
예를 들어, 언어 문장을 번역할 때, 입력 문장의 단어들이 출력 문장의 단어들과 어떤 관계를 가지는지를 모델이 학습하게 하는 것이다.
Transformer의 구조: Encoder와 Decoder
Transformer 모델은 크게 Encoder와 Decoder 두 부분으로 구성되어 있다.
- Encoder: 입력 시퀀스를 받아 그것을 연속적인 벡터 표현으로 변환하며, 이 과정에서 각 단어가 전체 문장의 어떤 부분에 주목해야 하는지 결정하는 ‘Self-Attention’ 메커니즘을 사용한다.
- Decoder: Encoder가 생성한 벡터 표현을 바탕으로 출력 시퀀스를 생성한다. 이 과정 역시 ‘Self-Attention’ 메커니즘을 사용하며, 추가적으로 Encoder의 출력에 대한 ‘Attention’ 메커니즘을 사용하여 입력 문장과 출력 문장 사이의 연관성을 학습한다.
Transformer의 장점
Transformer는 이전의 RNN(Recurrent Neural Network)나 LSTM(Long Short Term Memory) 등과는 달리, 문장을 순차적으로 처리하는 것이 아니라 한 번에 전체 문장을 처리하며, 문장 내의 긴 범위 의존성을 효과적으로 학습하고, 병렬 처리를 가능하게 해 학습 속도를 향상시키는 등의 장점을 가지게 된다. 이는 시퀀스의 길이에 관계없이 동일한 시간에 모든 단어를 처리할 수 있음을 의미한다.
또한, Transformer의 이런 특징은 GPT와 BERT 등 현재 가장 성능이 좋은 자연어 처리 모델들의 기반 아키텍처가 되었다. 이들 모델은 Transformer를 기반으로 하여, 더욱 복잡한 자연어 이해와 생성 태스크를 수행할 수 있다. 이는 사람이 언어를 이해하고 생성하는 방식을 더욱 세밀하게 모방하고 있다는 점에서 주목받고 있다.