Meta 라마(Llama) 4 오픈소스 무료 다운로드 및 핵심 완벽 정리

Meta 라마(Llama) 4 오픈소스 무료 다운로드 및 핵심 완벽 정리

Posted by

안녕하세요. 오늘은 Meta에서 발표한 새로운 대규모 언어 모델(LLM) 시리즈인 Llama(라마) 4에 대해 알아보고자 합니다. 라마4는 라마3가 2024년 4월에 발표한 뒤 1년만에 공개되는 모델입니다. 이번 발표는 단순한 모델 업데이트가 아닙니다. 최근 “지브리 스타일”로 인기가 많은 ChatGPT도 유료로 구독해야 하지만, 라마4는 ChatGPT와 동등하거나 더 높은 성능을 자랑합니다. 특히 ChatGPT와 같은 종류의 멀티모달 AI을 사용자들이 직접 사용할 수 있도록 무료인 오픈소스로 공개 하였습니다.

아래 링크(라마 홈페이지)에서 바로 다운로드 받을 수 있습니다.

아래 링크(Meta 홈페이지)에서 소개 글 원문을 볼 수 있습니다.


Meta는 이번 Llama 4 발표에서 총 세 가지 모델을 선보였으며, 각각의 모델이 가지는 구조적 특징, 성능, 활용 목적이 뚜렷합니다. 특히 모든 모델이 Mixture of Experts(MoE) 구조*를 채택했고, 텍스트와 비전을 동시에 처리할 수 있는 네이티브 멀티모달 모델이라는 점에서 큰 주목을 받고 있습니다.


📌 핵심 요약

Meta에서는 아래와 같이 총 3가지 라마4 모델을 발표했습니다.

Meta 라마(Llama) 4 오픈소스 무료 다운로드 및 핵심 완벽 정리
  • Llama 4 Scout: 17B 활성 파라미터, 10M 토큰 지원, 단일 H100에서 실행 가능한 경량 고성능 모델
  • Llama 4 Maverick: 17B 활성 파라미터, 128 전문가, GPT-4o보다 뛰어난 성능을 자랑하는 고성능 멀티모달 챗봇 모델
  • Llama 4 Behemoth: 288B 활성 파라미터, 2조 파라미터 규모의 교사 모델. STEM 성능 기준 GPT-4.5, Claude 3.7, Gemini 2.0 Pro보다 우수
  • 모든 모델은 텍스트 + 이미지 + 비디오 통합 지원
  • 오픈소스로 배포

Meta 라마(Llama) 4 오픈소스 무료 다운로드 및 핵심 완벽 정리 - 라마 4 3가지 모델

라마 4 모델별 특징 살펴보기

🦙 Scout(스카우트): 작지만 강력한 경량 멀티모달 모델

Scout(스카우트)는 17B 활성 파라미터와 16개의 전문가를 갖춘 모델로, 단일 NVIDIA H100 GPU에서 동작할 수 있도록 최적화되어 있습니다. 특히 주목할 점은 업계 최고 수준인 10M 토큰 길이의 입력을 지원한다는 점입니다.

이로 인해 대규모 코드베이스 분석, 멀티문서 요약, 방대한 사용자 활동 로그 해석 등이 가능해졌습니다. 또한 이미지 grounding 성능도 우수하여, 사용자의 텍스트 요청에 따라 이미지 속 객체를 정확하게 인식하고 관련된 답변을 생성할 수 있습니다.

Scout는 ‘iRoPE(interleaved Rotary Positional Embedding)’ 아키텍처*를 통해 포지션 임베딩 없이도 긴 문맥을 처리하며, 추론 시 attention scaling 기법을 적용해 길이 일반화(length generalization) 성능까지 확보했습니다.

  • 17B 활성 파라미터 / 16 전문가 / 109B 총 파라미터
  • 단일 NVIDIA H100 GPU에서 동작 가능 (Int4 양자화 기반)
  • 컨텍스트 길이 10M 토큰 지원 (업계 최고 수준)
  • 비전 앵커링(image grounding) 및 코드/텍스트/이미지 통합 처리 가능
  • 성능 비교: Llama 3보다 우수, 동급 모델 대비 최상위권 성능

📌 사용 예시: 수백만 줄의 코드 분석, 대규모 문서 요약, 멀티이미지 기반 시각적 질문응답


🦾 Maverick(매버릭): 고성능 범용 멀티모달 AI

Maverick(매버릭)은 Scout와 동일한 활성 파라미터 수를 갖고 있지만, 128개의 전문가(Experts)를 사용하며 총 400B 파라미터를 가진 모델입니다. GPT-4o, Gemini 2.0 Flash를 능가하는 성능을 보이며, LMArena 기준 ELO 1417을 기록하였습니다.

특히, reasoning, 코딩, 멀티모달 처리 능력에서 매우 우수하며, 창의적인 글쓰기, 이미지 설명, 다국어 이해 등 다양한 분야에 적합합니다. 이 모델은 코드 생성, 수학적 문제 해결, 고난도 질문 응답 등에서 DeepSeek v3 수준의 성능을 보여주면서도 파라미터 수는 절반에 불과하다는 점이 인상적입니다.

  • 17B 활성 파라미터 / 128 전문가 / 총 400B 파라미터
  • GPT-4o, Gemini 2.0 Flash 등을 능가하는 멀티모달 챗봇 최강자
  • LMArena ELO 1417 기록 (업계 최고 성능 중 하나)
  • 코드, 수학, 논리 추론에 최적화
  • 비전 이해, 창의적 글쓰기, 다국어 처리 모두 우수

📌 사용 예시: 고급 고객 응대 봇, 이미지 기반 설명 생성, 멀티모달 입력을 활용한 콘텐츠 제작


🧠 Behemoth(베헤모스): 가장 똑똑한 교사 모델

라마 4 Behemoth(베헤모스)는 아직 학습이 진행 중인 프리뷰 모델이지만, 벌써부터 많은 주목을 받고 있습니다. 288B 활성 파라미터, 총 2조 파라미터 규모이며, STEM 중심 벤치마크(MATH-500, GPQA Diamond 등)에서 GPT-4.5, Claude 3.7, Gemini Pro보다 높은 성능을 기록했습니다.

Behemoth는 Maverick과 Scout의 코디스틸링(교사-학생 학습)에 사용되었으며, 동적 가중 손실 함수를 적용하여 soft target과 hard target을 혼합해 학습 효과를 극대화했습니다.

  • 288B 활성 파라미터 / 16 전문가 / 총 2T 파라미터
  • GPT-4.5, Claude 3.7, Gemini Pro보다 STEM 성능 우수
  • Maverick의 교사 모델로 사용됨 (코디스틸링 적용)
  • 현재도 학습 중이지만, 사상 최대 규모로 기대감 상승

📌 향후 연구 개발, 고난이도 추론 모델의 베이스라인으로 활용 가능


라마 4 모델별 요약 총정리

항목Llama 4 ScoutLlama 4 MaverickLlama 4 Behemoth (프리뷰)
활성 파라미터 / 전문가 수 / 총 파라미터17B / 16 / 109B17B / 128 / 400B288B / 16 / 2T
하드웨어 요구사항단일 NVIDIA H100 GPU (Int4)단일 H100 호스트에서 추론 가능학습 중 (초대형 분산 시스템 기반)
컨텍스트 길이10M 토큰 (업계 최고 수준)수백K~수M 수준 (고성능 멀티모달 대응)수M 이상 (추론 가능한 길이 미공개)
멀티모달 처리텍스트 + 이미지 + 코드 통합 가능, image grounding 우수멀티모달 챗봇 최적화, 비전 이해 및 텍스트 생성 모두 우수이미지 + 텍스트 + 수학 중심 문제에 최적화된 교사 모델
성능 요약Llama 3보다 우수, 동급 모델 중 최고 성능GPT-4o, Gemini 2.0 Flash보다 우수, LMArena ELO 1417STEM 성능 기준 GPT-4.5, Claude 3.7, Gemini Pro보다 우수
용도 예시– 수백만 줄 코드 분석
– 대규모 문서 요약
– 멀티이미지 질문응답
– 고급 고객 응대 봇
– 이미지 기반 설명 생성
– 멀티모달 콘텐츠 제작
– 고난도 추론용 연구 베이스라인
– 대형 LLM의 학습 교사 역할

구조와 훈련 기술: 성능을 끌어올린 비결은?

🎯 MoE 아키텍처

각 토큰은 전체 모델 중 일부 전문가만 활성화시킵니다. 덕분에 모델은 추론 비용과 지연을 크게 낮출 수 있으며, 고성능을 유지하면서도 배포 효율이 좋아졌습니다.

🖼️ 멀티모달 학습

모든 모델은 이미지, 텍스트, 비디오 프레임 등 다양한 입력을 처리할 수 있도록 설계되었습니다. 최대 48개의 이미지로 학습되었고, 최대 8장의 이미지를 기반으로 추론이 가능합니다.

🧪 MetaP, FP8, 30조 토큰 데이터

Meta는 하이퍼파라미터 튜닝을 위한 자체 기법 MetaP*를 개발하여, 다양한 모델 구조와 데이터에 잘 맞는 설정을 자동화했습니다. FP8 정밀도* 사용과 30조 토큰 이상의 텍스트·비전 데이터로 사상 최대 규모의 사전 학습이 이뤄졌습니다.

🧠 Post-training: RL* + DPO* + Curriculum* 전략

Meta는 전통적인 RLHF*보다 더 정교한 방식으로 post-training을 진행했습니다. 쉬운 데이터는 제거하고, 중~고난도 프롬프트만 사용하여 온라인 RL을 수행했고, 이후 DPO로 corner case를 보완했습니다.


AI 안전성과 편향 최소화 노력

✅ Llama Guard, Prompt Guard, CyberSecEval 제공

입출력 안전성 검사를 위한 Llama Guard, 프롬프트 공격 방지를 위한 Prompt Guard, 사이버 보안 평가 툴까지 포함되어 있습니다.

🧪 GOAT: 자동화된 레드팀 프레임워크

다중 턴 기반의 자동화된 공격 테스트를 통해 위험 영역을 빠르게 탐지하고 보완합니다.

⚖️ 편향 줄이기

  • 논쟁적 주제 응답 거부율: 7% → 2% 이하 감소
  • 불균형한 응답 거부율: 1% 이하로 개선
  • 정치적 편향 응답: Grok과 유사한 수준으로 안정화

오픈소스와 생태계 확장

모델은 누구나 사용할 수 있도록 공개되었으며, 아래 경로에서 다운로드할 수 있습니다.


Llama 4는 단순히 성능 좋은 언어모델이 아니라, 멀티모달 통합, 초장문 문맥 이해, 코드/이미지/언어 융합, 안전성/공정성 향상까지 아우르는 종합 인공지능 플랫폼의 방향성을 보여주는 상징적 모델이 될 수 있을지 지켜보면 좋을 듯 합니다. 우선 오픈소스인게 좋네요!

추가로 라마 4를 직접 다운로드하여 평가할 예정이니 후속 포스트도 기대해주세요!


Appendix

Mixture of Experts(MoE) 구조*

MoE란 전체 모델이 아니라 입력 토큰당 일부 파라미터만 활성화 되도록 설계된 구조를 뜻합니다.

‘iRoPE(interleaved Rotary Positional Embedding)’ 아키텍처*

초장문 컨텍스트 길이(최대 10M 토큰)를 효율적으로 처리하기 위해 설계된 매우 중요한 기술
라마 1~3에 사용된 RoPE 구조*를 기반으로, Attention 레이어 구조에 변화를 주어 긴 문맥에서도 일반화 성능을 향상시키는 아키텍처

RoPE(Rotary Positional Embedding) 구조*

각 토큰의 임베딩 벡터에 삼각함수를 회전 방식으로 적용해 상대적 위치 정보를 보존
길이 일반화가 뛰어남 (라마 1~3에서 사용)

MetaP

MetaP(Meta Parameters)는 Llama 4 시리즈의 훈련 과정에서 사용된 하이퍼파라미터 최적화 기법으로, “레이어별 학습률(per-layer learning rates)과 초기화 스케일(initialization scale)을 안정적이고 일반화 가능하게 설정하기 위한 프레임워크” 을 목적으로 설계 되었습니다.

FP8 정밀도

FP8은 8비트 부동소수점(8-bit Floating Point)을 의미합니다. 기존의 FP32(32비트), FP16(16비트) 보다 훨씬 더 작은 비트 수로 수치를 표현하면서도, AI 훈련과 추론에 필요한 정확도와 범위를 유지할 수 있도록 설계된 새로운 수 표현 방식입니다.

RL (Reinforcement Learning, 강화 학습)

Llama 4에서는 기존 Supervised Fine-Tuning(SFT) 이후, 온라인 강화 학습(online RL)을 적용합니다. 이 과정에서는 아래와 같은 요소가 중요하게 작용합니다.

DPO (Direct Preference Optimization, 직접 선호 최적화)

DPO는 RLHF*에서 사용되는 보상 모델(reward model)을 생략하고, 대신 사용자 선호(좋은 응답 vs 나쁜 응답) 기반의 쌍(pair) 데이터를 활용하여 직접 모델을 튜닝하는 방법입니다.

Curriculum Strategy (교과과정 기반 학습 전략)

Curriculum Learning은 쉬운 데이터부터 어려운 데이터로 점진적으로 학습시키는 방식입니다. 그러나 Llama 4에서는 기존과 정반대로 쉬운 데이터는 제거하고, 중~고난도 프롬프트만 사용하는 방식으로 접근합니다.

RLHF

RLHF는 인간의 피드백을 활용하여 AI 모델의 응답 품질을 개선하는 학습 기법입니다.
전통적인 지도 학습(Supervised Learning)만으로는 충분히 해결하기 어려운 모호하거나 주관적인 응답의 ‘질’을 높이기 위해 사용됩니다.

Leave a Reply

Your email address will not be published. Required fields are marked *