Blog
llmopen-weightself-hostinginference

작은 모델, 어디까지 왔나: 폐쇄망에서 쓸 small LLM 고르는 법

1B~32B 오픈웨이트 LLM의 현재 수준과 작업별 '쓸만한' 임계점, 그리고 모델 크기·양자화·하드웨어의 관계를 검증된 수치로 정리합니다.

Data Dynamics2026년 6월 22일15 min read

"작은 모델은 못 쓴다"는 인식은 이미 깨졌습니다. 문제는 어떤 작업에 몇 B 모델을 어떤 하드웨어에 올릴지입니다. Gartner는 2027년까지 조직이 범용 LLM보다 소형·특화 모델을 약 3배 더 많이 쓸 것으로 전망합니다. 폐쇄망·온프레미스처럼 데이터가 밖으로 나가면 안 되는 환경이라면 이 선택이 곧 도입 가능 여부를 가릅니다.

이 글은 "최신 모델 소개"가 아니라, 자체 호스팅을 검토하는 사람을 위한 의사결정 도구를 목표로 합니다. 작업별 임계점 표 하나와, 검증 가능한 메모리 공식 하나면 대부분의 사이징 질문에 답할 수 있습니다.

수치 신뢰도에 대해: 아래 벤치마크와 메모리 수치는 가능한 한 1차 출처(HuggingFace 모델 카드, llama.cpp 공식 문서, arXiv)로 검증했습니다. 2026년에 등장한 일부 후속 모델(Gemma 4, Qwen3.5/3.6, Mistral Small 4 등)은 존재는 확인됐지만 벤치마크가 이미지로만 공개돼 수치 검증이 안 됐습니다. 그래서 본문 숫자는 검증이 끝난 Qwen3·Phi-4·Gemma 3·SmolLM3 세대를 기준으로 씁니다.

지금 어디까지 왔나

소형 모델의 절대 성능은 1~2년 전 중형 모델을 넘어섰습니다. 검증된 대표 점수만 추리면:

모델크기라이선스대표 점수
Phi-414.7BMITMMLU 84.8 · MATH 80.4 · GPQA 56.1
Phi-4-reasoning-plus14BMITAIME'24 81.3 · GPQA-Diamond 68.9 · MMLU-Pro 76.0
Phi-4-mini-instruct3.8BMITGSM8K 88.6 · HumanEval 74.4 · MMLU 67.3
Qwen3-32B32.8BApache 2.0AIME'24 79.5 · LiveCodeBench v5 62.7 · BFCL v3 66.4
Qwen3-30B-A3B (MoE)30.5B/3.3B 활성Apache 2.0AIME'24 80.4 · BFCL v3 69.1
Gemma-3-27B-IT27BGemmaMMLU-Pro 67.5 · MATH 69.0 · GPQA-Diamond 42.4
SmolLM3-3B (추론)3BApache 2.0AIME'25 36.7 · GPQA-Diamond 41.7

요점은 3~4B급도 수학·코딩에서 의미 있는 점수를 내고, 14B면 한때 프런티어급이던 영역에 닿는다는 것입니다. 단, 점수 한 줄로 "쓸만하다"를 판단하면 안 됩니다. 작업마다 임계점이 다릅니다.

작업별 '쓸만한' 임계점

이 글에서 가장 중요한 표입니다. "최소 이 정도면 실무에서 쓸만하다"와 "이 아래로 가면 위험하다"를 작업별로 정리했습니다.

작업쓸만한 최소 크기품질 절벽근거
분류·감성·라우팅1B 미만 (파인튜닝 인코더 125M)크기보다 학습 데이터가 변수arXiv 2406.08660
요약7~8B (정렬 잘된 4B 가능)34B 미만Vectara 환각 리더보드
RAG·근거 기반 QA7B (2~3B는 파인튜닝 필수)2~3B 미만 비추천Microsoft RAG 연구
함수호출(단일턴)·JSON7~8B멀티턴에서 급락Berkeley BFCL
코딩 — 자동완성7BQwen2.5-Coder 리포트
코딩 — 에이전트형(레포 단위)32B+ (그래도 프런티어 미만)14B 미만SWE-Dev
멀티스텝 에이전트신뢰할 임계점 없음8B 이하 비신뢰MCP-Bench
번역9~12B (특화 모델 유리)7B 미만, 특히 저자원 언어Tower+ / Aya
롱컨텍스트실효 16~32K실효 길이 초과RULER

이 표에서 끌어낼 실무 결론은 세 가지입니다.

1) 저부담 작업은 이미 7~8B에서 충분합니다. 분류·요약·단일턴 툴콜·RAG는 노트북이나 단일 GPU로 돌리는 7~8B 모델로 실무에 투입할 수 있습니다. 폐쇄망에서 "외부 API 없이도 된다"가 성립하는 영역입니다. 분류 같은 작업은 파인튜닝한 1B 미만 인코더가 제로샷 GPT-4를 이기기도 합니다.

2) 에이전트·레포 단위 코딩은 여전히 크기가 지배합니다. SWE-Dev 기준 7B는 약 23%, 32B는 약 37%로 두 배 가까이 벌어집니다. 8B 모델로 자율 멀티스텝 에이전트를 돌리려다 실패하는 게 흔한 함정입니다. 작은 모델은 좁은 스코프에 단단히 스캐폴딩해서 써야 합니다.

3) "128K 컨텍스트"를 액면 그대로 믿지 마세요. RULER 벤치마크 기준, 78B 모델의 실효 컨텍스트는 광고된 길이의 일부에 불과합니다. 예컨대 Mistral-7B는 32K를 표방하지만 실효는 약 16K이고, 128K 구간에서는 정확도가 급락합니다. "실효 1632K"를 설계 전제로 잡는 편이 안전합니다.

크기 × 양자화 × 하드웨어

자체 호스팅의 핵심 질문은 "내 하드웨어에서 뭐가 돌아가나"입니다. 답은 단순한 공식 하나에서 나옵니다.

필요 메모리 ≈ (파라미터 수 × 정밀도 바이트) + KV 캐시 + 오버헤드(10~20%)

가중치만 본 표입니다. Q4_K_M는 llama.cpp 공식 기준 약 4.9 bit/weight(≈0.61 byte/param)로, 흔히 말하는 "INT4 = 0.5 byte"보다 약간 큽니다.

모델FP16Q8Q4_K_M (권장)현실적으로 돌아가는 곳
1~3B2~6GB1~3GB0.6~2GB노트북 CPU, 라즈베리파이 5
7~8B~15GB~8GB~4.6GB16GB 노트북·맥, 24GB GPU
13~14B~27GB~14GB~8GB32GB RAM, 24GB GPU
27~32B~60GB~32GB1820GB24GB GPU(Q4), 80GB 카드(FP16)

검증된 사실(8.03B 모델 기준): Q4_K_M는 약 4.58GiB, Q8_0는 약 7.95GiB, F16는 약 14.96GiB입니다. 이 비율을 다른 크기에 그대로 확장하면 위 표가 됩니다.

양자화는 어디까지 줄여도 되나

arXiv 2601.14277(Llama-3.1-8B 양자화 통합 평가) 기준:

  • Q4_K_M: 약 69% 압축에 MMLU 약 1점 손실. 사실상의 sweet spot.
  • Q5/Q6: 코드·수학처럼 민감한 작업에는 한 단계 위로.
  • Q3 이하: 품질 손실이 눈에 띄게 커짐 → 메모리가 정말 부족할 때만.

요약·분류는 Q4로 충분하지만, 코드 생성과 수학·추론은 양자화에 더 민감하다는 점을 기억하세요.

KV 캐시가 롱컨텍스트에서 가중치를 압도한다

가중치만 보면 안 됩니다. 컨텍스트가 길어지면 KV 캐시가 메모리를 잡아먹습니다.

KV 캐시 = 2 × 레이어 수 × KV 헤드 수 × head_dim × 토큰 수 × 정밀도 바이트

Llama-3-8B(레이어 32, KV 헤드 8, head_dim 128, FP16) 기준 토큰당 약 128KB입니다. 즉:

  • 8K 컨텍스트: 약 1.0GB
  • 128K 컨텍스트: 약 16.8GB — 가중치(Q4 ~4.6GB)보다 큽니다.

그래서 최신 소형 모델이 채택한 **GQA(Grouped-Query Attention)**가 결정적입니다. KV 헤드를 줄여 캐시를 4배가량 절약합니다. KV 캐시 자체를 양자화(Q8/Q4 KV)하는 방법도 있습니다.

실측 처리량 감 잡기

환경모델처리량
라즈베리파이 53B Q42~7 tok/s
CPU 전용 서버7B Q43~12 tok/s (메모리 대역폭 병목)
M4 Max (맥)7B Q4_0~83 tok/s
RTX 4090 24GB8B Q495110 tok/s (단일 요청)

맥의 통합 메모리는 전체 RAM을 VRAM처럼 쓸 수 있어 16GB면 7~8B, 128GB면 70B Q4까지 노려볼 수 있습니다. 단일 80GB 데이터센터 카드(A100/H100)는 32B FP16 또는 70B INT4까지 한 장에 올라갑니다.

추론 엔진 고르기

같은 모델도 엔진에 따라 적합한 시나리오가 다릅니다.

시나리오추천 엔진이유
노트북 개발 / 에어갭 단말llama.cpp, Ollama, LM Studio, llamafileCPU+GPU 하이브리드, GGUF, 오프라인 기본
단일 GPU 개발·소규모 서빙Ollama, llama.cpp(llama-server), vLLMOpenAI 호환 API, 가벼운 운영
멀티 GPU 프로덕션 서빙(처리량)vLLM, SGLang연속 배칭, 텐서/파이프라인 병렬, paged KV

폐쇄망·온프레미스 관점에서 짚어둘 점:

  • llama.cpp 계열(Ollama·LM Studio·llamafile 포함)이 ARM64 지원 1급입니다. NEON·Apple Silicon Metal을 네이티브로 다룹니다. 단일 바이너리(llamafile)는 에어갭 배포에 특히 강합니다.
  • vLLM도 0.11.2부터 Arm CPU 휠을 제공하며(Graviton3 테스트), GPU 서빙에서는 chunked prefill·continuous batching으로 prefill(연산 병목)과 decode(메모리 병목)를 분리 최적화합니다. prefill 레이턴시가 병목이라면 vLLM·SGLang의 이 기능이 직접적인 해법 후보입니다.
  • TGI(Text Generation Inference)는 현재 유지보수 모드입니다. 신규 구축이라면 vLLM 또는 SGLang을 권합니다.

2026년의 큰 흐름: 효율 아키텍처와 데이터 주권

소형·효율 모델 흐름의 배경에는 두 가지 동력이 있습니다.

아키텍처 효율화. 대형 오픈웨이트 모델은 sparse attention으로 롱컨텍스트 비용을 떨어뜨리고 있습니다. DeepSeek의 DSA(Sparse Attention)가 V3.2(2025-12, MIT)에서 자리 잡았고, Z.ai의 GLM-5.2(2026-06, MIT, 약 753B/40B 활성, 1M 컨텍스트)가 DSA 기반 IndexShare로 1M 컨텍스트에서 토큰당 FLOPs를 줄였습니다. MiniMax M3는 자체 MSA(MiniMax Sparse Attention)로 1M 컨텍스트에서 토큰당 연산을 이전 세대의 약 1/20로 낮추고 prefill 9배 이상·decode 15배 이상 가속을 보고했습니다. 이들은 대형 모델이지만, sparse/linear attention 계열을 평가 후보에 넣어볼 가치가 분명합니다.

데이터 주권과 비용. 조직이 자체 호스팅을 택하는 이유는 명확합니다. ITAR·HIPAA·GDPR 같은 규제, 데이터 무유출(zero egress) 요건, 그리고 비용입니다. 오픈웨이트(특히 Apache 2.0/MIT) 가중치는 한 번 받아 망 안에서만 돌리면 되므로 데이터 잔류 문제를 근본적으로 해소합니다. Gartner는 2027년까지 엔터프라이즈 GenAI 모델의 절반 이상이 도메인 특화가 될 것으로 봅니다(2024년 약 1%).

도입 체크리스트

새 워크로드에 소형 모델을 올리기 전에 점검할 항목입니다.

  • 작업 유형 확정 — 분류/요약/RAG/툴콜/코딩/에이전트 중 무엇인가 (임계점이 다름)
  • 임계점 이상 크기 선택 — 위 표에서 작업별 최소 크기 충족
  • 실효 컨텍스트 확인 — 광고된 길이가 아니라 실효 길이로 설계 (보통 16~32K)
  • 양자화 결정 — 기본 Q4_K_M, 코드·수학은 Q5/Q6, Q3 이하는 회피
  • 메모리 산정 — 가중치 + KV 캐시(컨텍스트 길이 반영) + 오버헤드
  • 하드웨어 매칭 — 노트북/단일 GPU/데이터센터 카드 중 어디에 올릴지
  • 추론 엔진 선택 — 에어갭/ARM64면 llama.cpp 계열, 프로덕션 서빙이면 vLLM/SGLang
  • 라이선스 확인 — Apache 2.0/MIT는 안전, Llama/Gemma 라이선스는 조건 확인

작은 모델의 시대는 "크기"가 아니라 "작업에 맞는 크기"의 시대입니다. 워크로드를 정확히 정의하면, 폐쇄망 안에서 외부 API 없이 돌릴 수 있는 영역이 생각보다 넓습니다.


참고 출처