2026 AI 모델 현황 총정리 — 오픈 여부·파라미터·양자화·메모리·용도 비교
GPT-5.5·Claude·Gemini·Llama 4·Qwen3·DeepSeek부터 국내 EXAONE·Solar·Kanana까지, 주요 모델을 오픈 여부·파라미터·컨텍스트·양자화·필요 VRAM·용도로 비교한 2026년 6월 현황표.
어떤 모델을 쓸지 고를 때 우리가 실제로 묻는 질문은 이렇습니다. "오픈 모델인가, 우리 GPU에 올라가는가, 무슨 용도에 맞는가." 이 글은 2026년 6월 기준 주요 모델을 오픈 여부·파라미터·컨텍스트·양자화·필요 메모리(VRAM)·주요 용도로 한자리에 정리한 현황표입니다.
⚠️ 빠르게 바뀝니다. 아래는 2026년 6월 기준이며, 폐쇄형 모델의 파라미터·내부 구조는 대부분 비공개입니다. VRAM 수치는 "감을 잡기 위한 근삿값"으로, 컨텍스트 길이·배치·런타임에 따라 달라집니다. 용어가 낯설면 AI 용어집, 양자화·파인튜닝은 LoRA·QLoRA·DoRA 글을 참고하세요.
큰 그림
모델 시장은 크게 폐쇄형 프런티어(상용 API) 와 오픈웨이트(직접 호스팅 가능) 로 나뉘고, 그 안에 범용·추론·코드·멀티모달·임베딩·소형·한국어 특화가 있습니다.
먼저: 필요한 메모리(VRAM) 감 잡기
오픈 모델을 직접 돌릴 때 가장 먼저 부딪히는 벽이 GPU 메모리입니다. 핵심 공식은 단순합니다.
가중치 VRAM ≈ 파라미터 수 × 정밀도(바이트). FP16은 1B당 약 2GB, 8비트는 약 1GB, 4비트는 약 0.5GB입니다. 여기에 KV 캐시·활성값으로 20~40%를 더 잡으세요.
| 파라미터 | FP16 | 8비트 | 4비트(+오버헤드) | 4비트로 돌릴 만한 GPU |
|---|---|---|---|---|
| 1B | ~2GB | ~1GB | ~1GB | 노트북/내장, 8GB |
| 3B | ~6GB | ~3GB | ~2.5GB | 8GB |
| 7~8B | ~16GB | ~8GB | 8~12GB | |
| 13~14B | ~28GB | ~14GB | 12~16GB | |
| 27~32B | ~60GB | ~32GB | 24GB (RTX 4090/5090) | |
| 70B | ~140GB | ~70GB | 48GB×1 또는 24GB×2 | |
| ~110B (MoE 총) | ~220GB | ~110GB | 80GB (H100)×1 | |
| 235B+ | — | — | 멀티 GPU | |
| 671B (V3급) | — | — | 멀티 노드 |
세 가지 실전 포인트:
- MoE(전문가 혼합)는 "총 파라미터"가 메모리를 정하고, "활성 파라미터"가 속도를 정합니다. 예: DeepSeek-V3는 671B를 메모리에 다 올려야 하지만, 토큰당 37B만 계산하므로 동급 dense보다 빠릅니다.
- 긴 컨텍스트는 KV 캐시로 메모리를 더 먹습니다. 100만 토큰을 실제로 채우면 가중치만큼의 추가 메모리가 들 수도 있습니다.
- 양자화는 메모리를 절반(8비트)~1/4(4비트)로 줄입니다. QAT·AWQ·GGUF 같은 정확도 보존형은 손실이 작습니다.
양자화 포맷 한눈에
| 포맷 | 어디서 | 특징 |
|---|---|---|
| GGUF | llama.cpp / Ollama | CPU·소비자 GPU 친화, 로컬 실행 표준 |
| AWQ / GPTQ | vLLM·TGI 서빙 | 4비트 사후 양자화, 정확도 보존형 |
| bitsandbytes (NF4) | 학습/QLoRA | 4비트 적재 + 파인튜닝 |
| FP8 | H100/B200 서빙 | 최신 GPU에서 속도·정확도 균형 |
| QAT | 배포 전 학습 | 양자화 인지 학습으로 손실 최소화(예: Gemma 3) |
A. 폐쇄형 프런티어 (상용 API)
파라미터·구조는 비공개입니다. 메모리 걱정 없이 API로 쓰지만, 데이터가 외부로 나가고 비용이 토큰당 발생합니다.
| 모델 | 제공사 | 컨텍스트 | 모달리티 | 가격(입력/출력, 1M토큰) | 주요 용도 |
|---|---|---|---|---|---|
| GPT-5.5 | OpenAI | 1M (API) | 텍스트·비전·컴퓨터 사용 | $5 / $30 | 최상위 범용·에이전트·코딩 |
| GPT-5.5 Pro | OpenAI | 1M | 멀티모달 | (상위 티어) | 고정확도·고난도 작업 |
| GPT-5.5 Instant | OpenAI | — | 텍스트 | (ChatGPT 기본) | 빠른 대화·일반 작업 |
| Claude Opus 4.8 | Anthropic | 1M | 텍스트·비전 | $5 / $25 | 복잡 추론·장기 에이전트 코딩 |
| Claude Sonnet 4.6 | Anthropic | 1M | 텍스트·비전 | $3 / $15 | 가성비 최상위 범용 |
| Claude Haiku 4.5 | Anthropic | 200K | 텍스트·비전 | $1 / $5 | 고속·대량 분류·라우팅·코드리뷰 |
| Gemini 3.1 Pro | 1M | 멀티모달 | (프리미엄) | 추론·복잡 에이전트 워크플로 | |
| Gemini 3.5 Flash | 1M | 멀티모달 | (중가) | 에이전트·코딩, 균형형 | |
| Gemini 3.1 Flash-Lite | 대용량 | 멀티모달 | (최저가) | 대량·저지연·비용 민감 | |
| Grok 4.3 | xAI | 1M~2M | 텍스트·비전·영상 | $1.25 / $2.50 | 초장문·실시간·가성비 프런티어 |
| Qwen3-Max | Alibaba | 대용량 | 텍스트 | (API) | 1T+급 폐쇄 플래그십 |
Anthropic은 6월 9일 Mythos 5·Fable 5(상위 티어, 1M 컨텍스트)를 공개했으나 6월 12일 접근을 일시 중단했습니다. 라인업은 수시로 바뀌니 공식 가격·모델 페이지를 확인하세요.
B. 오픈웨이트 범용 (직접 호스팅 가능)
VRAM은 4비트 양자화 기준 근삿값입니다. MoE는 총/활성 파라미터를 함께 표기했습니다.
| 모델 | 제공사 | 파라미터(활성) | 컨텍스트 | 라이선스 | 4비트 VRAM(대략) | 주요 용도 |
|---|---|---|---|---|---|---|
| Llama 4 Scout | Meta | 109B 총 / 17B | 10M | Llama 커뮤니티 | ~60GB (H100 1장) | 초장문 검색·RAG |
| Llama 4 Maverick | Meta | 400B 총 / 17B | 1M | Llama 커뮤니티 | ~220GB (멀티 GPU) | 멀티모달·장문 생성 |
| Qwen3.6 (dense 27B) | Alibaba | 27B | 1M | Apache 2.0 | ~16GB (24GB GPU) | 최신 플래그십 dense |
| Qwen3.5 | Alibaba | 397B 총 / 17B | 262K | Apache 2.0 | ~220GB (멀티 GPU) | 대형 MoE·멀티모달 에이전트 |
| Qwen3 32B | Alibaba | 32B | 128K+ | Apache 2.0 | 범용 고성능 dense | |
| Qwen3 235B-A22B | Alibaba | 235B 총 / 22B | 128K+ | Apache 2.0 | ~130GB (멀티 GPU) | 최상위 오픈 MoE |
| DeepSeek-V4 (프리뷰) | DeepSeek | 대형 MoE | 1M | MIT | 멀티 노드 | 초장문 프로덕션 |
| DeepSeek-V3 | DeepSeek | 671B 총 / 37B | 128K | MIT | 최상위 범용 오픈 MoE | |
| Mistral Large 3 | Mistral | 675B 총 / 41B | 대용량 | Apache 2.0 | 멀티 노드 | 최대급 오픈 MoE |
| Mistral Small 4 | Mistral | ~24B급 | 대용량 | Apache 2.0 | 추론+비전+코딩 통합 단일 모델 | |
| Gemma 3 27B | 27B | 128K | Gemma | ~16GB (QAT, 24GB GPU) | 오픈 멀티모달 범용 | |
| Phi-4 | Microsoft | 14B | — | MIT | 작지만 강한 추론 SLM |
C. 추론(reasoning) 특화
답하기 전 더 오래 "생각"해 수학·코딩·논리에서 강합니다. 토큰을 많이 써 비용·지연이 큽니다.
| 모델 | 제공사 | 오픈 | 특징 |
|---|---|---|---|
| GPT-5.5 Thinking | OpenAI | ✕ | 프런티어 추론, 에이전트 코딩 강세 |
| Claude (확장 사고) | Anthropic | ✕ | Opus/Sonnet의 적응형 사고 모드 |
| Gemini 3.1 Pro (adaptive thinking) | ✕ | 사고량 자동 조절 | |
| DeepSeek-R1 | DeepSeek | ✓ (MIT) | 오픈 추론 대표, 증류판(1.5B~70B) 제공 |
| Qwen3 Thinking | Alibaba | ✓ | 사고/비사고 전환 가능 |
| Phi-4-reasoning(-plus) | Microsoft | ✓ (MIT) | 14B 소형 추론, 가성비 |
| Magistral | Mistral | ✓ | (Small 4에 통합) 추론 특화 |
D. 특화 — 코드 · 멀티모달
| 모델 | 분류 | 오픈 | 비고 |
|---|---|---|---|
| Qwen3-Coder 480B-A35B | 코드 | ✓ | 대형 코딩 전용 MoE |
| GPT-5.5-Codex | 코드 | ✕ | 에이전트 코딩(400K ctx) |
| Devstral / Codestral | 코드 | ✓ | Mistral 코딩 계열 |
| DeepSeek-Coder | 코드 | ✓ | 오픈 코딩 |
| Llama 4 (Scout/Maverick) | 멀티모달 | ✓ | 네이티브 멀티모달(이미지+텍스트) |
| Qwen-VL / Pixtral | 비전 | ✓ | 이미지 이해 |
| Gemma 3 (4B 이상) | 비전 | ✓ | 경량 멀티모달 |
| Phi-4-multimodal / vision-15B | 비전·음성 | ✓ (MIT) | 소형 멀티모달 추론 |
E. 임베딩 모델 (RAG·검색용)
생성 모델이 아니라 텍스트를 벡터로 바꾸는 모델입니다. 차원 수가 저장·검색 비용을 좌우합니다.
| 모델 | 제공사 | 오픈 | 특징·용도 |
|---|---|---|---|
| text-embedding-3-large / small | OpenAI | ✕ | 범용 기본값, 가성비 좋은 small |
| Cohere embed-v4 | Cohere | ✕ | 다국어·하이브리드(밀집+희소) |
| Voyage-3-large / 3.5 | Voyage | ✕ | 검색 품질 최상위(지연 큼) |
| BGE-M3 | BAAI | ✓ | 오픈·다국어·자체 호스팅 표준 |
| Qwen3-Embedding | Alibaba | ✓ | 오픈 가성비 |
| Jina v5 | Jina | ✓/✕ | 텍스트 RAG 정확도/비용 우수 |
F. 소형·엣지 모델 (노트북·온디바이스)
작은 GPU나 CPU·온디바이스에서 돌릴 수 있는 모델입니다. 4비트면 대부분 노트북에서도 동작합니다.
| 모델 | 파라미터 | 4비트 VRAM | 돌릴 수 있는 환경 |
|---|---|---|---|
| Gemma 3 270M | 0.27B | < 0.5GB | CPU·모바일 |
| Qwen3 0.6B / 1.7B | 0.6 / 1.7B | ~0.5 / ~1.5GB | 노트북·내장그래픽 |
| Llama 3.2 1B / 3B | 1 / 3B | ~1 / ~2.5GB | 노트북·엣지 |
| Gemma 3 1B / 4B | 1 / 4B | ~1 / ~3GB | 노트북(4B는 비전 가능) |
| Ministral 3B | 3B | ~2GB | 엣지·온디바이스 |
| Phi-4-mini | 3.8B | ~2.5GB | 노트북, 함수 호출 내장 |
G. 한국어 특화 (국내 모델)
한국어 품질·국내 규제·소버린 AI 관점에서 중요한 모델들입니다. 다수가 오픈웨이트로 공개돼 자체 호스팅이 가능합니다.
| 모델 | 제공사 | 파라미터(활성) | 오픈 | 4비트 VRAM(대략) | 특징·용도 |
|---|---|---|---|---|---|
| EXAONE 4.0 | LG AI | 30B | ✓ (HF) | ~18GB | 글로벌 벤치 경쟁력, 범용 |
| EXAONE 4.5 | LG AI | (멀티모달) | ✓ | 가변 | 텍스트·이미지 멀티모달 추론 |
| HyperCLOVA X (Seed 32B Think) | Naver | 32B | ✓ | ~19GB | 한국어 검색·추론 |
| HyperCLOVA X 8B Omni | Naver | 8B | ✓ | ~6GB | 경량 멀티모달 |
| Solar Pro 2 | Upstage | 31B | 일부 | ~18GB | 한국 최초 글로벌급 프런티어 |
| Kanana-2 | Kakao | 70B 총 / MoE(8활성) | ✓ | ~40GB | 에이전트·장문 추론, 128K, 한국어 MMLU 89% |
| Mi:dm 2.0 Base / Mini | KT | 11.5B / 2.3B | ✓ (MIT) | ~7GB / ~1.5GB | 한국 특화 범용 / 경량 |
| Mi:dm K 2.5 Pro | KT | 32B | ✓ | ~19GB | 지식·추론 강화, 128K |
| A.X 4.0 / 3.1 | SKT | 34B | ✓ | ~20GB | from-scratch 한국어, 경량판 포함 |
| A.X K1 | SKT | 519B | ✓ | 멀티 노드 | 소버린 초대형 모델 |
"이 GPU로 뭘 돌릴 수 있나" (4비트 기준)
모델 선택 가이드
정리하면 선택은 세 갈래입니다. (1) 데이터를 밖으로 못 보내면 오픈웨이트 자체 호스팅 — 이때 GPU 메모리가 모델 크기를 결정합니다. (2) 한국어가 핵심이면 국내 모델을 우선 검토. (3) 운영 부담을 줄이고 최고 성능을 원하면 폐쇄형 API, 그 안에서 성능·가성비·대량저비용으로 다시 나뉩니다.
마무리
2026년의 모델 지형은 "폐쇄형이 성능을 끌고, 오픈웨이트가 빠르게 추격하며, 국내 모델이 소버린 AI로 자리 잡는" 구도입니다. 실무 선택의 출발점은 늘 같습니다 — 데이터 정책 → 한국어 필요성 → 가진 GPU(메모리) → 용도 순으로 좁혀가면 후보가 자연스럽게 줄어듭니다.
이 표는 살아있는 문서입니다. 모델은 매달 바뀌니, 도입 직전에는 각 제공사의 공식 모델·가격 페이지로 최신 수치를 한 번 더 확인하세요. 양자화로 메모리를 줄이는 구체적 방법은 LoRA·QLoRA·DoRA 글에서 다룹니다.