llmmodel-comparisonopen-sourcequantization

2026 AI 모델 현황 총정리 — 오픈 여부·파라미터·양자화·메모리·용도 비교

GPT-5.5·Claude·Gemini·Llama 4·Qwen3·DeepSeek부터 국내 EXAONE·Solar·Kanana까지, 주요 모델을 오픈 여부·파라미터·컨텍스트·양자화·필요 VRAM·용도로 비교한 2026년 6월 현황표.

Data Dynamics2026年6月24日17 min read

This post is not yet translated. The original Korean version is shown below.

어떤 모델을 쓸지 고를 때 우리가 실제로 묻는 질문은 이렇습니다. "오픈 모델인가, 우리 GPU에 올라가는가, 무슨 용도에 맞는가." 이 글은 2026년 6월 기준 주요 모델을 오픈 여부·파라미터·컨텍스트·양자화·필요 메모리(VRAM)·주요 용도로 한자리에 정리한 현황표입니다.

⚠️ 빠르게 바뀝니다. 아래는 2026년 6월 기준이며, 폐쇄형 모델의 파라미터·내부 구조는 대부분 비공개입니다. VRAM 수치는 "감을 잡기 위한 근삿값"으로, 컨텍스트 길이·배치·런타임에 따라 달라집니다. 용어가 낯설면 AI 용어집, 양자화·파인튜닝은 LoRA·QLoRA·DoRA 글을 참고하세요.

큰 그림

모델 시장은 크게 폐쇄형 프런티어(상용 API) 와 오픈웨이트(직접 호스팅 가능) 로 나뉘고, 그 안에 범용·추론·코드·멀티모달·임베딩·소형·한국어 특화가 있습니다.

Loading diagram…

먼저: 필요한 메모리(VRAM) 감 잡기

오픈 모델을 직접 돌릴 때 가장 먼저 부딪히는 벽이 GPU 메모리입니다. 핵심 공식은 단순합니다.

가중치 VRAM ≈ 파라미터 수 × 정밀도(바이트). FP16은 1B당 약 2GB, 8비트는 약 1GB, 4비트는 약 0.5GB입니다. 여기에 KV 캐시·활성값으로 20~40%를 더 잡으세요.

파라미터	FP16	8비트	4비트(+오버헤드)	4비트로 돌릴 만한 GPU
1B	~2GB	~1GB	~1GB	노트북/내장, 8GB
3B	~6GB	~3GB	~2.5GB	8GB
7~8B	~16GB	~8GB	56GB	8~12GB
13~14B	~28GB	~14GB	910GB	12~16GB
27~32B	~60GB	~32GB	1820GB	24GB (RTX 4090/5090)
70B	~140GB	~70GB	4043GB	48GB×1 또는 24GB×2
~110B (MoE 총)	~220GB	~110GB	6067GB	80GB (H100)×1
235B+	—	—	~~130~~240GB	멀티 GPU
671B (V3급)	—	—	~~380~~400GB	멀티 노드

세 가지 실전 포인트:

MoE(전문가 혼합)는 "총 파라미터"가 메모리를 정하고, "활성 파라미터"가 속도를 정합니다. 예: DeepSeek-V3는 671B를 메모리에 다 올려야 하지만, 토큰당 37B만 계산하므로 동급 dense보다 빠릅니다.
긴 컨텍스트는 KV 캐시로 메모리를 더 먹습니다. 100만 토큰을 실제로 채우면 가중치만큼의 추가 메모리가 들 수도 있습니다.
양자화는 메모리를 절반(8비트)~1/4(4비트)로 줄입니다. QAT·AWQ·GGUF 같은 정확도 보존형은 손실이 작습니다.

양자화 포맷 한눈에

포맷	어디서	특징
GGUF	llama.cpp / Ollama	CPU·소비자 GPU 친화, 로컬 실행 표준
AWQ / GPTQ	vLLM·TGI 서빙	4비트 사후 양자화, 정확도 보존형
bitsandbytes (NF4)	학습/QLoRA	4비트 적재 + 파인튜닝
FP8	H100/B200 서빙	최신 GPU에서 속도·정확도 균형
QAT	배포 전 학습	양자화 인지 학습으로 손실 최소화(예: Gemma 3)

A. 폐쇄형 프런티어 (상용 API)

파라미터·구조는 비공개입니다. 메모리 걱정 없이 API로 쓰지만, 데이터가 외부로 나가고 비용이 토큰당 발생합니다.

모델	제공사	컨텍스트	모달리티	가격(입력/출력, 1M토큰)	주요 용도
GPT-5.5	OpenAI	1M (API)	텍스트·비전·컴퓨터 사용	$5 / $30	최상위 범용·에이전트·코딩
GPT-5.5 Pro	OpenAI	1M	멀티모달	(상위 티어)	고정확도·고난도 작업
GPT-5.5 Instant	OpenAI	—	텍스트	(ChatGPT 기본)	빠른 대화·일반 작업
Claude Opus 4.8	Anthropic	1M	텍스트·비전	$5 / $25	복잡 추론·장기 에이전트 코딩
Claude Sonnet 4.6	Anthropic	1M	텍스트·비전	$3 / $15	가성비 최상위 범용
Claude Haiku 4.5	Anthropic	200K	텍스트·비전	$1 / $5	고속·대량 분류·라우팅·코드리뷰
Gemini 3.1 Pro	Google	1M	멀티모달	(프리미엄)	추론·복잡 에이전트 워크플로
Gemini 3.5 Flash	Google	1M	멀티모달	(중가)	에이전트·코딩, 균형형
Gemini 3.1 Flash-Lite	Google	대용량	멀티모달	(최저가)	대량·저지연·비용 민감
Grok 4.3	xAI	1M~2M	텍스트·비전·영상	$1.25 / $2.50	초장문·실시간·가성비 프런티어
Qwen3-Max	Alibaba	대용량	텍스트	(API)	1T+급 폐쇄 플래그십

Anthropic은 6월 9일 Mythos 5·Fable 5(상위 티어, 1M 컨텍스트)를 공개했으나 6월 12일 접근을 일시 중단했습니다. 라인업은 수시로 바뀌니 공식 가격·모델 페이지를 확인하세요.

B. 오픈웨이트 범용 (직접 호스팅 가능)

VRAM은 4비트 양자화 기준 근삿값입니다. MoE는 총/활성 파라미터를 함께 표기했습니다.

모델	제공사	파라미터(활성)	컨텍스트	라이선스	4비트 VRAM(대략)	주요 용도
Llama 4 Scout	Meta	109B 총 / 17B	10M	Llama 커뮤니티	~60GB (H100 1장)	초장문 검색·RAG
Llama 4 Maverick	Meta	400B 총 / 17B	1M	Llama 커뮤니티	~220GB (멀티 GPU)	멀티모달·장문 생성
Qwen3.6 (dense 27B)	Alibaba	27B	1M	Apache 2.0	~16GB (24GB GPU)	최신 플래그십 dense
Qwen3.5	Alibaba	397B 총 / 17B	262K	Apache 2.0	~220GB (멀티 GPU)	대형 MoE·멀티모달 에이전트
Qwen3 32B	Alibaba	32B	128K+	Apache 2.0	1820GB	범용 고성능 dense
Qwen3 235B-A22B	Alibaba	235B 총 / 22B	128K+	Apache 2.0	~130GB (멀티 GPU)	최상위 오픈 MoE
DeepSeek-V4 (프리뷰)	DeepSeek	대형 MoE	1M	MIT	멀티 노드	초장문 프로덕션
DeepSeek-V3	DeepSeek	671B 총 / 37B	128K	MIT	~~380~~400GB (멀티 노드)	최상위 범용 오픈 MoE
Mistral Large 3	Mistral	675B 총 / 41B	대용량	Apache 2.0	멀티 노드	최대급 오픈 MoE
Mistral Small 4	Mistral	~24B급	대용량	Apache 2.0	1415GB	추론+비전+코딩 통합 단일 모델
Gemma 3 27B	Google	27B	128K	Gemma	~16GB (QAT, 24GB GPU)	오픈 멀티모달 범용
Phi-4	Microsoft	14B	—	MIT	910GB	작지만 강한 추론 SLM

C. 추론(reasoning) 특화

답하기 전 더 오래 "생각"해 수학·코딩·논리에서 강합니다. 토큰을 많이 써 비용·지연이 큽니다.

모델	제공사	오픈	특징
GPT-5.5 Thinking	OpenAI	✕	프런티어 추론, 에이전트 코딩 강세
Claude (확장 사고)	Anthropic	✕	Opus/Sonnet의 적응형 사고 모드
Gemini 3.1 Pro (adaptive thinking)	Google	✕	사고량 자동 조절
DeepSeek-R1	DeepSeek	✓ (MIT)	오픈 추론 대표, 증류판(1.5B~70B) 제공
Qwen3 Thinking	Alibaba	✓	사고/비사고 전환 가능
Phi-4-reasoning(-plus)	Microsoft	✓ (MIT)	14B 소형 추론, 가성비
Magistral	Mistral	✓	(Small 4에 통합) 추론 특화

D. 특화 — 코드 · 멀티모달

모델	분류	오픈	비고
Qwen3-Coder 480B-A35B	코드	✓	대형 코딩 전용 MoE
GPT-5.5-Codex	코드	✕	에이전트 코딩(400K ctx)
Devstral / Codestral	코드	✓	Mistral 코딩 계열
DeepSeek-Coder	코드	✓	오픈 코딩
Llama 4 (Scout/Maverick)	멀티모달	✓	네이티브 멀티모달(이미지+텍스트)
Qwen-VL / Pixtral	비전	✓	이미지 이해
Gemma 3 (4B 이상)	비전	✓	경량 멀티모달
Phi-4-multimodal / vision-15B	비전·음성	✓ (MIT)	소형 멀티모달 추론

E. 임베딩 모델 (RAG·검색용)

생성 모델이 아니라 텍스트를 벡터로 바꾸는 모델입니다. 차원 수가 저장·검색 비용을 좌우합니다.

모델	제공사	오픈	특징·용도
text-embedding-3-large / small	OpenAI	✕	범용 기본값, 가성비 좋은 small
Cohere embed-v4	Cohere	✕	다국어·하이브리드(밀집+희소)
Voyage-3-large / 3.5	Voyage	✕	검색 품질 최상위(지연 큼)
BGE-M3	BAAI	✓	오픈·다국어·자체 호스팅 표준
Qwen3-Embedding	Alibaba	✓	오픈 가성비
Jina v5	Jina	✓/✕	텍스트 RAG 정확도/비용 우수

F. 소형·엣지 모델 (노트북·온디바이스)

작은 GPU나 CPU·온디바이스에서 돌릴 수 있는 모델입니다. 4비트면 대부분 노트북에서도 동작합니다.

모델	파라미터	4비트 VRAM	돌릴 수 있는 환경
Gemma 3 270M	0.27B	< 0.5GB	CPU·모바일
Qwen3 0.6B / 1.7B	0.6 / 1.7B	~0.5 / ~1.5GB	노트북·내장그래픽
Llama 3.2 1B / 3B	1 / 3B	~1 / ~2.5GB	노트북·엣지
Gemma 3 1B / 4B	1 / 4B	~1 / ~3GB	노트북(4B는 비전 가능)
Ministral 3B	3B	~2GB	엣지·온디바이스
Phi-4-mini	3.8B	~2.5GB	노트북, 함수 호출 내장

G. 한국어 특화 (국내 모델)

한국어 품질·국내 규제·소버린 AI 관점에서 중요한 모델들입니다. 다수가 오픈웨이트로 공개돼 자체 호스팅이 가능합니다.

모델	제공사	파라미터(활성)	오픈	4비트 VRAM(대략)	특징·용도
EXAONE 4.0	LG AI	30B	✓ (HF)	~18GB	글로벌 벤치 경쟁력, 범용
EXAONE 4.5	LG AI	(멀티모달)	✓	가변	텍스트·이미지 멀티모달 추론
HyperCLOVA X (Seed 32B Think)	Naver	32B	✓	~19GB	한국어 검색·추론
HyperCLOVA X 8B Omni	Naver	8B	✓	~6GB	경량 멀티모달
Solar Pro 2	Upstage	31B	일부	~18GB	한국 최초 글로벌급 프런티어
Kanana-2	Kakao	70B 총 / MoE(8활성)	✓	~40GB	에이전트·장문 추론, 128K, 한국어 MMLU 89%
Mi:dm 2.0 Base / Mini	KT	11.5B / 2.3B	✓ (MIT)	~7GB / ~1.5GB	한국 특화 범용 / 경량
Mi:dm K 2.5 Pro	KT	32B	✓	~19GB	지식·추론 강화, 128K
A.X 4.0 / 3.1	SKT	34B	✓	~20GB	from-scratch 한국어, 경량판 포함
A.X K1	SKT	519B	✓	멀티 노드	소버린 초대형 모델

"이 GPU로 뭘 돌릴 수 있나" (4비트 기준)

Loading diagram…

모델 선택 가이드

Loading diagram…

정리하면 선택은 세 갈래입니다. (1) 데이터를 밖으로 못 보내면 오픈웨이트 자체 호스팅 — 이때 GPU 메모리가 모델 크기를 결정합니다. (2) 한국어가 핵심이면 국내 모델을 우선 검토. (3) 운영 부담을 줄이고 최고 성능을 원하면 폐쇄형 API, 그 안에서 성능·가성비·대량저비용으로 다시 나뉩니다.

마무리

2026년의 모델 지형은 "폐쇄형이 성능을 끌고, 오픈웨이트가 빠르게 추격하며, 국내 모델이 소버린 AI로 자리 잡는" 구도입니다. 실무 선택의 출발점은 늘 같습니다 — 데이터 정책 → 한국어 필요성 → 가진 GPU(메모리) → 용도 순으로 좁혀가면 후보가 자연스럽게 줄어듭니다.

이 표는 살아있는 문서입니다. 모델은 매달 바뀌니, 도입 직전에는 각 제공사의 공식 모델·가격 페이지로 최신 수치를 한 번 더 확인하세요. 양자화로 메모리를 줄이는 구체적 방법은 LoRA·QLoRA·DoRA 글에서 다룹니다.