Solutions · Open Source

Argus RAG Studio

用于在一处构建、运维、评估和服务 RAG(检索增强生成)流水线的开源平台。涵盖从文档摄取到混合检索、带引用的答案生成,以及评估、可观测与反馈在内的 RAG 全流程;嵌入与重排可在后端内部本地运行,因此也能在气隙(隔离网)与本地化环境中运维。

Apache License 2.0 · 开源GitHub 仓库

特点与优势

01

索引·查询一体化 RAG 流水线

上传→解析→分块→嵌入→索引的摄取,以及检索→重排→生成的查询,在单一后端中处理。每个集合(知识库)可配置不同策略。

02

混合检索+带引用答案

以 RRF 融合向量(pgvector)与词法(tsvector)检索,并以 [n] 接地生成带出处的答案。多轮对话通过 SSE 流式输出。

03

本地推理·气隙运维

嵌入与重排可通过 FastEmbed 在后端内本地运行,外部推理服务器并非必需。生成 LLM 采用可在 OpenAI 兼容服务器与 Claude 之间切换的 BYO 架构,因此在隔离网中也可运维。

04

评估·运维·反馈闭环

基于黄金集的自动评估(Hit Rate·MRR·LLM-as-judge)、分阶段时延与 token 追踪,以及将答案 👍/👎 反馈晋升至黄金集——形成度量并改进质量的闭环。

平台架构

前端仪表盘·RAG 后端·推理·数据存储有机协同的端到端 RAG 平台。

Frontend Dashboard
Next.js 16 · React 19
知识库·文档管理
Playground · Chat
流水线编辑·版本
评估数据集·Run
运维(追踪)·统计
反馈·用户/权限
RAG Backend
FastAPI :4700
摄取(解析·分块·嵌入·索引)
查询(检索·重排·生成)
评估·运维·反馈
流水线版本管理
本地/Keycloak 认证
REST · SSE 流式
Inference
本地或独立服务器
嵌入 — FastEmbed 本地 · 服务器 :8080
重排 — FastEmbed 本地 · 服务器 :8081
生成 LLM — OpenAI 兼容 · Claude
视觉 LLM(BYO)— 用于 vlm 解析
Data Stores
PostgreSQL · MinIO
PostgreSQL + pgvector
分块·向量·tsvector·元数据
查询追踪·评估·反馈
MinIO / S3 原始文档
技术栈
Python 3.11FastAPISQLAlchemy 2.0PostgreSQL + pgvectorPydantic v2Next.js 16React 19TypeScriptTailwind 4 · shadcn/uiJWT · Keycloak OIDCFastEmbed (ONNX)Anthropic SDK

核心功能

从摄取、解析、分块到混合检索与生成,再到评估、可观测与反馈——在单一平台提供 RAG 流水线的全过程。

摄取

上传的文档经解析→分块→嵌入→pgvector 索引异步处理。

txt/md/csv/json/html/xml/pdf/docx/xlsx/pptx/hwp/hwpx 加载器
HWP·HWPX·PDF·DOCX·XLSX 元数据抽取
content_hash 幂等·再处理(reindex)
异步工作器·任务进度追踪

解析策略

按集合替换摄取的解析阶段(变更时重建索引)。

text · layout(表格→Markdown)· docai(docling)
vlm — 外部视觉 LLM(BYO)
rhwp — 保留 HWP/HWPX 合并表格
可用性 introspection · 真实模型验证

分块策略

按集合替换分块方式与单位。

recursive · sentence(韩语 kss)· fixed
markdown(表格·标题)· semantic(语义边界)
char / token(tiktoken)单位 · size · overlap
重叠智能截断·质量保护

混合检索与生成

结合关键词与语义进行检索,并生成带引用的答案。

向量(pgvector)+词法(tsvector)+RRF 融合
[n] 接地引用答案生成
多轮对话 — SSE token·出处流式
重排 none/llm/cross_encoder

嵌入与推理提供方

将嵌入、重排与生成 LLM 在本地或独立服务器间切换。

嵌入 — OpenAI 兼容 · 本地(FastEmbed)· hash
按集合的模型·维度·服务器 URL·缓存复用
独立的嵌入(:8080)·重排(:8081)服务器
生成 LLM — OpenAI 兼容 · Claude(anthropic SDK)

评估

使用黄金数据集自动度量 RAG 流水线质量。

黄金集(问题·期望答案·期望出处)CRUD
检索指标 — Hit Rate · MRR(无需 LLM)
生成指标 — LLM-as-judge(faithfulness 等)
评估 Run 异步工作器·指标表

运维(Observability)

对查询的分阶段时延与 token 用量进行埋点。

Query Trace — retrieval/rerank/generation 时延
token 用量捕获(OpenAI 兼容 · Claude)
统计 — 成功率·时延 p50/p95·热门查询
best-effort 埋点(不阻塞请求)

流水线版本管理

将检索、重排与生成配置作为可版本化的一等资产管理。

append-only 版本·回滚·字段级 diff
对同一查询比较两个版本(实验)
距离度量 override
为 search/query/chat 应用 pipeline_id

反馈闭环

收集答案评价并回流至黄金集。

Playground·Chat 答案的 👍/👎 组件
通过 trace_id 归属到特定答案
将反馈晋升(promote)为黄金集条目
评估/状态过滤·统计·管理界面
Apache License 2.0 · 开源

以开源形式发布的 RAG 平台

Argus RAG Studio 以 Apache License 2.0 在 GitHub 上公开。后端(FastAPI)、前端(Next.js)以及独立的嵌入/重排服务器在内的整套 RAG 引擎全部开放,企业可以直接审计代码、按自身环境扩展,并在不向外部传输数据的情况下运维。

  • 无商用限制的 Apache 2.0
  • 可自行审计与扩展代码
  • 气隙·本地化自主运维