Blog
llmmodel-comparisonopen-sourcequantization

2026 AI 모델 현황 총정리 — 오픈 여부·파라미터·양자화·메모리·용도 비교

GPT-5.5·Claude·Gemini·Llama 4·Qwen3·DeepSeek부터 국내 EXAONE·Solar·Kanana까지, 주요 모델을 오픈 여부·파라미터·컨텍스트·양자화·필요 VRAM·용도로 비교한 2026년 6월 현황표.

Data Dynamics2026年6月24日17 min read
This post is not yet translated. The original Korean version is shown below.

어떤 모델을 쓸지 고를 때 우리가 실제로 묻는 질문은 이렇습니다. "오픈 모델인가, 우리 GPU에 올라가는가, 무슨 용도에 맞는가." 이 글은 2026년 6월 기준 주요 모델을 오픈 여부·파라미터·컨텍스트·양자화·필요 메모리(VRAM)·주요 용도로 한자리에 정리한 현황표입니다.

⚠️ 빠르게 바뀝니다. 아래는 2026년 6월 기준이며, 폐쇄형 모델의 파라미터·내부 구조는 대부분 비공개입니다. VRAM 수치는 "감을 잡기 위한 근삿값"으로, 컨텍스트 길이·배치·런타임에 따라 달라집니다. 용어가 낯설면 AI 용어집, 양자화·파인튜닝은 LoRA·QLoRA·DoRA 글을 참고하세요.

큰 그림

모델 시장은 크게 폐쇄형 프런티어(상용 API)오픈웨이트(직접 호스팅 가능) 로 나뉘고, 그 안에 범용·추론·코드·멀티모달·임베딩·소형·한국어 특화가 있습니다.

Loading diagram…

먼저: 필요한 메모리(VRAM) 감 잡기

오픈 모델을 직접 돌릴 때 가장 먼저 부딪히는 벽이 GPU 메모리입니다. 핵심 공식은 단순합니다.

가중치 VRAM ≈ 파라미터 수 × 정밀도(바이트). FP16은 1B당 약 2GB, 8비트는 약 1GB, 4비트는 약 0.5GB입니다. 여기에 KV 캐시·활성값으로 20~40%를 더 잡으세요.

파라미터FP168비트4비트(+오버헤드)4비트로 돌릴 만한 GPU
1B~2GB~1GB~1GB노트북/내장, 8GB
3B~6GB~3GB~2.5GB8GB
7~8B~16GB~8GB56GB8~12GB
13~14B~28GB~14GB910GB12~16GB
27~32B~60GB~32GB1820GB24GB (RTX 4090/5090)
70B~140GB~70GB4043GB48GB×1 또는 24GB×2
~110B (MoE 총)~220GB~110GB6067GB80GB (H100)×1
235B+130240GB멀티 GPU
671B (V3급)380400GB멀티 노드

세 가지 실전 포인트:

  • MoE(전문가 혼합)는 "총 파라미터"가 메모리를 정하고, "활성 파라미터"가 속도를 정합니다. 예: DeepSeek-V3는 671B를 메모리에 다 올려야 하지만, 토큰당 37B만 계산하므로 동급 dense보다 빠릅니다.
  • 긴 컨텍스트는 KV 캐시로 메모리를 더 먹습니다. 100만 토큰을 실제로 채우면 가중치만큼의 추가 메모리가 들 수도 있습니다.
  • 양자화는 메모리를 절반(8비트)~1/4(4비트)로 줄입니다. QAT·AWQ·GGUF 같은 정확도 보존형은 손실이 작습니다.

양자화 포맷 한눈에

포맷어디서특징
GGUFllama.cpp / OllamaCPU·소비자 GPU 친화, 로컬 실행 표준
AWQ / GPTQvLLM·TGI 서빙4비트 사후 양자화, 정확도 보존형
bitsandbytes (NF4)학습/QLoRA4비트 적재 + 파인튜닝
FP8H100/B200 서빙최신 GPU에서 속도·정확도 균형
QAT배포 전 학습양자화 인지 학습으로 손실 최소화(예: Gemma 3)

A. 폐쇄형 프런티어 (상용 API)

파라미터·구조는 비공개입니다. 메모리 걱정 없이 API로 쓰지만, 데이터가 외부로 나가고 비용이 토큰당 발생합니다.

모델제공사컨텍스트모달리티가격(입력/출력, 1M토큰)주요 용도
GPT-5.5OpenAI1M (API)텍스트·비전·컴퓨터 사용$5 / $30최상위 범용·에이전트·코딩
GPT-5.5 ProOpenAI1M멀티모달(상위 티어)고정확도·고난도 작업
GPT-5.5 InstantOpenAI텍스트(ChatGPT 기본)빠른 대화·일반 작업
Claude Opus 4.8Anthropic1M텍스트·비전$5 / $25복잡 추론·장기 에이전트 코딩
Claude Sonnet 4.6Anthropic1M텍스트·비전$3 / $15가성비 최상위 범용
Claude Haiku 4.5Anthropic200K텍스트·비전$1 / $5고속·대량 분류·라우팅·코드리뷰
Gemini 3.1 ProGoogle1M멀티모달(프리미엄)추론·복잡 에이전트 워크플로
Gemini 3.5 FlashGoogle1M멀티모달(중가)에이전트·코딩, 균형형
Gemini 3.1 Flash-LiteGoogle대용량멀티모달(최저가)대량·저지연·비용 민감
Grok 4.3xAI1M~2M텍스트·비전·영상$1.25 / $2.50초장문·실시간·가성비 프런티어
Qwen3-MaxAlibaba대용량텍스트(API)1T+급 폐쇄 플래그십

Anthropic은 6월 9일 Mythos 5·Fable 5(상위 티어, 1M 컨텍스트)를 공개했으나 6월 12일 접근을 일시 중단했습니다. 라인업은 수시로 바뀌니 공식 가격·모델 페이지를 확인하세요.

B. 오픈웨이트 범용 (직접 호스팅 가능)

VRAM은 4비트 양자화 기준 근삿값입니다. MoE는 총/활성 파라미터를 함께 표기했습니다.

모델제공사파라미터(활성)컨텍스트라이선스4비트 VRAM(대략)주요 용도
Llama 4 ScoutMeta109B 총 / 17B10MLlama 커뮤니티~60GB (H100 1장)초장문 검색·RAG
Llama 4 MaverickMeta400B 총 / 17B1MLlama 커뮤니티~220GB (멀티 GPU)멀티모달·장문 생성
Qwen3.6 (dense 27B)Alibaba27B1MApache 2.0~16GB (24GB GPU)최신 플래그십 dense
Qwen3.5Alibaba397B 총 / 17B262KApache 2.0~220GB (멀티 GPU)대형 MoE·멀티모달 에이전트
Qwen3 32BAlibaba32B128K+Apache 2.01820GB범용 고성능 dense
Qwen3 235B-A22BAlibaba235B 총 / 22B128K+Apache 2.0~130GB (멀티 GPU)최상위 오픈 MoE
DeepSeek-V4 (프리뷰)DeepSeek대형 MoE1MMIT멀티 노드초장문 프로덕션
DeepSeek-V3DeepSeek671B 총 / 37B128KMIT380400GB (멀티 노드)최상위 범용 오픈 MoE
Mistral Large 3Mistral675B 총 / 41B대용량Apache 2.0멀티 노드최대급 오픈 MoE
Mistral Small 4Mistral~24B급대용량Apache 2.01415GB추론+비전+코딩 통합 단일 모델
Gemma 3 27BGoogle27B128KGemma~16GB (QAT, 24GB GPU)오픈 멀티모달 범용
Phi-4Microsoft14BMIT910GB작지만 강한 추론 SLM

C. 추론(reasoning) 특화

답하기 전 더 오래 "생각"해 수학·코딩·논리에서 강합니다. 토큰을 많이 써 비용·지연이 큽니다.

모델제공사오픈특징
GPT-5.5 ThinkingOpenAI프런티어 추론, 에이전트 코딩 강세
Claude (확장 사고)AnthropicOpus/Sonnet의 적응형 사고 모드
Gemini 3.1 Pro (adaptive thinking)Google사고량 자동 조절
DeepSeek-R1DeepSeek✓ (MIT)오픈 추론 대표, 증류판(1.5B~70B) 제공
Qwen3 ThinkingAlibaba사고/비사고 전환 가능
Phi-4-reasoning(-plus)Microsoft✓ (MIT)14B 소형 추론, 가성비
MagistralMistral(Small 4에 통합) 추론 특화

D. 특화 — 코드 · 멀티모달

모델분류오픈비고
Qwen3-Coder 480B-A35B코드대형 코딩 전용 MoE
GPT-5.5-Codex코드에이전트 코딩(400K ctx)
Devstral / Codestral코드Mistral 코딩 계열
DeepSeek-Coder코드오픈 코딩
Llama 4 (Scout/Maverick)멀티모달네이티브 멀티모달(이미지+텍스트)
Qwen-VL / Pixtral비전이미지 이해
Gemma 3 (4B 이상)비전경량 멀티모달
Phi-4-multimodal / vision-15B비전·음성✓ (MIT)소형 멀티모달 추론

E. 임베딩 모델 (RAG·검색용)

생성 모델이 아니라 텍스트를 벡터로 바꾸는 모델입니다. 차원 수가 저장·검색 비용을 좌우합니다.

모델제공사오픈특징·용도
text-embedding-3-large / smallOpenAI범용 기본값, 가성비 좋은 small
Cohere embed-v4Cohere다국어·하이브리드(밀집+희소)
Voyage-3-large / 3.5Voyage검색 품질 최상위(지연 큼)
BGE-M3BAAI오픈·다국어·자체 호스팅 표준
Qwen3-EmbeddingAlibaba오픈 가성비
Jina v5Jina✓/✕텍스트 RAG 정확도/비용 우수

F. 소형·엣지 모델 (노트북·온디바이스)

작은 GPU나 CPU·온디바이스에서 돌릴 수 있는 모델입니다. 4비트면 대부분 노트북에서도 동작합니다.

모델파라미터4비트 VRAM돌릴 수 있는 환경
Gemma 3 270M0.27B< 0.5GBCPU·모바일
Qwen3 0.6B / 1.7B0.6 / 1.7B~0.5 / ~1.5GB노트북·내장그래픽
Llama 3.2 1B / 3B1 / 3B~1 / ~2.5GB노트북·엣지
Gemma 3 1B / 4B1 / 4B~1 / ~3GB노트북(4B는 비전 가능)
Ministral 3B3B~2GB엣지·온디바이스
Phi-4-mini3.8B~2.5GB노트북, 함수 호출 내장

G. 한국어 특화 (국내 모델)

한국어 품질·국내 규제·소버린 AI 관점에서 중요한 모델들입니다. 다수가 오픈웨이트로 공개돼 자체 호스팅이 가능합니다.

모델제공사파라미터(활성)오픈4비트 VRAM(대략)특징·용도
EXAONE 4.0LG AI30B✓ (HF)~18GB글로벌 벤치 경쟁력, 범용
EXAONE 4.5LG AI(멀티모달)가변텍스트·이미지 멀티모달 추론
HyperCLOVA X (Seed 32B Think)Naver32B~19GB한국어 검색·추론
HyperCLOVA X 8B OmniNaver8B~6GB경량 멀티모달
Solar Pro 2Upstage31B일부~18GB한국 최초 글로벌급 프런티어
Kanana-2Kakao70B 총 / MoE(8활성)~40GB에이전트·장문 추론, 128K, 한국어 MMLU 89%
Mi:dm 2.0 Base / MiniKT11.5B / 2.3B✓ (MIT)~7GB / ~1.5GB한국 특화 범용 / 경량
Mi:dm K 2.5 ProKT32B~19GB지식·추론 강화, 128K
A.X 4.0 / 3.1SKT34B~20GBfrom-scratch 한국어, 경량판 포함
A.X K1SKT519B멀티 노드소버린 초대형 모델

"이 GPU로 뭘 돌릴 수 있나" (4비트 기준)

Loading diagram…

모델 선택 가이드

Loading diagram…

정리하면 선택은 세 갈래입니다. (1) 데이터를 밖으로 못 보내면 오픈웨이트 자체 호스팅 — 이때 GPU 메모리가 모델 크기를 결정합니다. (2) 한국어가 핵심이면 국내 모델을 우선 검토. (3) 운영 부담을 줄이고 최고 성능을 원하면 폐쇄형 API, 그 안에서 성능·가성비·대량저비용으로 다시 나뉩니다.

마무리

2026년의 모델 지형은 "폐쇄형이 성능을 끌고, 오픈웨이트가 빠르게 추격하며, 국내 모델이 소버린 AI로 자리 잡는" 구도입니다. 실무 선택의 출발점은 늘 같습니다 — 데이터 정책 → 한국어 필요성 → 가진 GPU(메모리) → 용도 순으로 좁혀가면 후보가 자연스럽게 줄어듭니다.

이 표는 살아있는 문서입니다. 모델은 매달 바뀌니, 도입 직전에는 각 제공사의 공식 모델·가격 페이지로 최신 수치를 한 번 더 확인하세요. 양자화로 메모리를 줄이는 구체적 방법은 LoRA·QLoRA·DoRA 글에서 다룹니다.