이미지 생성모델(Text-To-Image 모델)은 텍스트를 기반으로 이미지를 만들어주는 생성형 인공지능(Generative AI)으로 가장 유명한 모델은 미드저니(MidJourney)와 달리(Dall.E2)가 있다.
이번에는 인지도가 위 두 모델보다 적으나 훌륭한 Text-To-Image 모델 스테이블 디퓨전(Stable Diffusion)을 소개해보고자 한다.
스테이블 디퓨전(Stable Diffusion)은 Stability AI에서 개발하고 오픈소스 라이선스로 배포한 text-to-image 인공지능 모델이다. 2022년 8월 22일에 처음 출시되었으며, 독일 뮌헨 대학교 Machine Vision & Learning Group (CompVis) 연구실에서 수행한 고해상도 이미지 합성 연구를 기반으로 개발되었다.
이 인공지능은 기존의 text-to-image 모델과 달리 컴퓨터 사용 리소스를 대폭 줄여서 4GB 이하의 VRAM을 가진 컴퓨터에서도 사용할 수 있다. 오픈소스로 공개된 덕분에 해당 인공지능을 기반으로 하는 AI 이미지 서비스 기능이 많이 늘어나고 있다.
스테이블 디퓨전은 몇 가지 버전 업그레이드를 거쳐 2022년 12월 15일에는 원작자가 데이터셋에 있는 자신의 작품을 삭제할 수 있는 기능을 추가했다. 이를 통해 아티스트의 창작물 보호에도 기여하고 있다.
이 인공지능은 크게 CLIP, UNet, VAE(Variational Auto Encoder)라는 세 가지 인공신경망으로 구성되어 있다. 텍스트 입력을 토큰으로 변환한 뒤, UNet은 토큰을 기반으로 무작위로 생성된 노이즈를 디노이징하여 이미지를 생성하며, VAE는 이미지를 픽셀로 변환하는 역할을 한다.
Stable AI에서는 오픈소스 머신러닝 전용 라이선스를 새로 만들어 이 프로젝트에 적용하였다. 일반적인 오픈소스 라이선스와 달리, 이 라이선스는 스테이블 디퓨전을 사용하여 서비스를 할 경우 반드시 명시를 해야 하며, 파인튜닝 모델은 라이선스에 명시된 특정 제한적인 용도에만 사용해야 한다.