Solutions · Open Source

Argus RAG Studio

RAG(검색 증강 생성) 파이프라인의 구축·운영·평가·서빙을 한곳에서 수행하는 오픈소스 플랫폼입니다. 문서 인제스천부터 하이브리드 검색, 인용 기반 답변 생성, 평가·운영·피드백까지 RAG의 전 과정을 다루며, 임베딩·리랭킹을 백엔드 내부에서 로컬로 실행할 수 있어 에어갭(폐쇄망)·온프레미스에서도 운영할 수 있습니다.

Apache License 2.0 · 오픈소스GitHub 저장소

특징 및 강점

01

색인·질의 완결형 RAG 파이프라인

업로드→파싱→청킹→임베딩→색인의 인제스천과, 검색→리랭크→생성의 질의를 하나의 백엔드에서 처리합니다. 컬렉션(지식베이스)마다 전략을 다르게 구성할 수 있습니다.

02

하이브리드 검색 + 인용 답변

벡터(pgvector)와 렉시컬(tsvector) 검색을 RRF로 융합하고, [n] 그라운딩으로 출처가 달린 답변을 생성합니다. 멀티턴 챗은 SSE로 스트리밍됩니다.

03

로컬 추론 · 에어갭 운영

임베딩·리랭킹을 FastEmbed로 백엔드 안에서 로컬 실행할 수 있어 외부 추론 서버가 필수가 아닙니다. 생성 LLM은 OpenAI 호환 서버나 Claude로 전환되는 BYO 구조라 폐쇄망에서도 운영됩니다.

04

평가·운영·피드백 폐루프

골든셋 기반 자동 평가(Hit Rate·MRR·LLM-as-judge), 단계별 지연·토큰 추적, 답변 👍/👎 피드백의 골든셋 승격까지 — 품질을 측정하고 개선하는 루프를 갖춥니다.

플랫폼 아키텍처

프런트엔드 대시보드 · RAG 백엔드 · 추론 · 데이터 스토어가 유기적으로 연동되는 엔드투엔드 RAG 플랫폼입니다.

Frontend Dashboard
Next.js 16 · React 19
지식베이스·문서 관리
Playground · Chat
파이프라인 편집·버전
평가 데이터셋·Run
운영(트레이스)·통계
피드백·사용자/권한
RAG Backend
FastAPI :4700
인제스천(파싱·청킹·임베딩·색인)
질의(검색·리랭크·생성)
평가·운영·피드백
파이프라인 버전 관리
로컬/Keycloak 인증
REST · SSE 스트리밍
Inference
로컬 또는 독립 서버
임베딩 — FastEmbed 로컬 · 서버 :8080
리랭커 — FastEmbed 로컬 · 서버 :8081
생성 LLM — OpenAI 호환 · Claude
비전 LLM(BYO) — vlm 파싱용
Data Stores
PostgreSQL · MinIO
PostgreSQL + pgvector
청크·벡터·tsvector·메타
Query Trace·평가·피드백
MinIO / S3 원본 문서
기술 스택
Python 3.11FastAPISQLAlchemy 2.0PostgreSQL + pgvectorPydantic v2Next.js 16React 19TypeScriptTailwind 4 · shadcn/uiJWT · Keycloak OIDCFastEmbed (ONNX)Anthropic SDK

핵심 기능

인제스천·파싱·청킹부터 하이브리드 검색·생성, 평가·운영·피드백까지 — RAG 파이프라인의 전 과정을 단일 플랫폼에서 제공합니다.

인제스천

문서를 업로드하면 파싱→청킹→임베딩→pgvector 색인까지 비동기로 처리합니다.

txt/md/csv/json/html/xml/pdf/docx/xlsx/pptx/hwp/hwpx 로더
HWP·HWPX·PDF·DOCX·XLSX 메타데이터 추출
content_hash 멱등성·재처리(reindex)
비동기 워커·잡 진행률 추적

파싱 전략

인제스천의 파싱 단계를 컬렉션별로 교체합니다(변경 시 재인덱싱).

text · layout(표→Markdown) · docai(docling)
vlm — 외부 비전 LLM(BYO)
rhwp — HWP/HWPX 병합 표 보존
가용성 introspection · 실모델 검증

청킹 전략

컬렉션별로 청킹 방식과 단위를 교체합니다.

recursive · sentence(한국어 kss) · fixed
markdown(표·헤딩) · semantic(의미 경계)
char / token(tiktoken) 단위 · size · overlap
오버랩 스마트 절단 · 품질 가드

하이브리드 검색 & 생성

키워드와 의미를 결합해 검색하고 인용이 달린 답변을 생성합니다.

벡터(pgvector)+렉시컬(tsvector)+RRF 융합
[n] 그라운딩 인용 답변 생성
멀티턴 챗 — SSE 토큰·출처 스트리밍
리랭킹 none/llm/cross_encoder

임베딩 & 추론 프로바이더

임베딩·리랭킹·생성 LLM을 로컬 또는 독립 서버로 전환합니다.

임베딩 — OpenAI 호환 · 로컬(FastEmbed) · hash
컬렉션별 모델·차원·서버 URL·캐시 재사용
독립 임베딩(:8080)·리랭커(:8081) 서버
생성 LLM — OpenAI 호환 · Claude(anthropic SDK)

평가

골든 데이터셋으로 RAG 파이프라인 품질을 자동 측정합니다.

골든셋 (질문·기대답변·기대출처) CRUD
검색 지표 — Hit Rate·MRR(LLM 불필요)
생성 지표 — LLM-as-judge(faithfulness 등)
평가 Run 비동기 워커·지표 테이블

운영 (Observability)

질의의 단계별 지연과 토큰 사용량을 계측합니다.

Query Trace — retrieval/rerank/generation 지연
토큰 사용량 캡처(OpenAI 호환·Claude)
통계 — 성공률·지연 p50/p95·인기 질의
best-effort 계측(요청을 막지 않음)

파이프라인 버전 관리

검색·리랭크·생성 설정을 버전 가능한 1급 자산으로 관리합니다.

append-only 버전·롤백·필드별 diff
두 버전 동일 질의 비교(실험)
거리 메트릭 override
search/query/chat에 pipeline_id 적용

피드백 루프

답변 평가를 모아 골든셋으로 되먹입니다.

Playground·Chat 답변 👍/👎 위젯
trace_id로 특정 답변에 귀속
피드백 → 골든셋 항목 승격(promote)
평가/상태 필터·통계·관리 화면
Apache License 2.0 · 오픈소스

오픈소스로 공개되는 RAG 플랫폼

Argus RAG Studio는 Apache License 2.0으로 GitHub에 공개됩니다. 백엔드(FastAPI)·프론트엔드(Next.js)·독립 임베딩/리랭커 서버까지 RAG 엔진 전체를 공개해, 기업이 코드를 직접 검증하고 자사 환경에 맞게 확장하며 데이터를 외부로 내보내지 않고 운영할 수 있습니다.

  • 상용 활용 제약 없는 Apache 2.0
  • 코드 직접 검증·확장 가능
  • 에어갭·온프레미스 자체 운영