Solutions · Open Source
Argus RAG Studio
用于在一处构建、运维、评估和服务 RAG(检索增强生成)流水线的开源平台。涵盖从文档摄取到混合检索、带引用的答案生成,以及评估、可观测与反馈在内的 RAG 全流程;嵌入与重排可在后端内部本地运行,因此也能在气隙(隔离网)与本地化环境中运维。
Apache License 2.0 · 开源GitHub 仓库
特点与优势
01
索引·查询一体化 RAG 流水线
上传→解析→分块→嵌入→索引的摄取,以及检索→重排→生成的查询,在单一后端中处理。每个集合(知识库)可配置不同策略。
02
混合检索+带引用答案
以 RRF 融合向量(pgvector)与词法(tsvector)检索,并以 [n] 接地生成带出处的答案。多轮对话通过 SSE 流式输出。
03
本地推理·气隙运维
嵌入与重排可通过 FastEmbed 在后端内本地运行,外部推理服务器并非必需。生成 LLM 采用可在 OpenAI 兼容服务器与 Claude 之间切换的 BYO 架构,因此在隔离网中也可运维。
04
评估·运维·反馈闭环
基于黄金集的自动评估(Hit Rate·MRR·LLM-as-judge)、分阶段时延与 token 追踪,以及将答案 👍/👎 反馈晋升至黄金集——形成度量并改进质量的闭环。
平台架构
前端仪表盘·RAG 后端·推理·数据存储有机协同的端到端 RAG 平台。
Frontend Dashboard
Next.js 16 · React 19
知识库·文档管理
Playground · Chat
流水线编辑·版本
评估数据集·Run
运维(追踪)·统计
反馈·用户/权限
RAG Backend
FastAPI :4700
摄取(解析·分块·嵌入·索引)
查询(检索·重排·生成)
评估·运维·反馈
流水线版本管理
本地/Keycloak 认证
REST · SSE 流式
Inference
本地或独立服务器
嵌入 — FastEmbed 本地 · 服务器 :8080
重排 — FastEmbed 本地 · 服务器 :8081
生成 LLM — OpenAI 兼容 · Claude
视觉 LLM(BYO)— 用于 vlm 解析
Data Stores
PostgreSQL · MinIO
PostgreSQL + pgvector
分块·向量·tsvector·元数据
查询追踪·评估·反馈
MinIO / S3 原始文档
技术栈
Python 3.11FastAPISQLAlchemy 2.0PostgreSQL + pgvectorPydantic v2Next.js 16React 19TypeScriptTailwind 4 · shadcn/uiJWT · Keycloak OIDCFastEmbed (ONNX)Anthropic SDK
核心功能
从摄取、解析、分块到混合检索与生成,再到评估、可观测与反馈——在单一平台提供 RAG 流水线的全过程。
摄取
上传的文档经解析→分块→嵌入→pgvector 索引异步处理。
txt/md/csv/json/html/xml/pdf/docx/xlsx/pptx/hwp/hwpx 加载器
HWP·HWPX·PDF·DOCX·XLSX 元数据抽取
content_hash 幂等·再处理(reindex)
异步工作器·任务进度追踪
解析策略
按集合替换摄取的解析阶段(变更时重建索引)。
text · layout(表格→Markdown)· docai(docling)
vlm — 外部视觉 LLM(BYO)
rhwp — 保留 HWP/HWPX 合并表格
可用性 introspection · 真实模型验证
分块策略
按集合替换分块方式与单位。
recursive · sentence(韩语 kss)· fixed
markdown(表格·标题)· semantic(语义边界)
char / token(tiktoken)单位 · size · overlap
重叠智能截断·质量保护
混合检索与生成
结合关键词与语义进行检索,并生成带引用的答案。
向量(pgvector)+词法(tsvector)+RRF 融合
[n] 接地引用答案生成
多轮对话 — SSE token·出处流式
重排 none/llm/cross_encoder
嵌入与推理提供方
将嵌入、重排与生成 LLM 在本地或独立服务器间切换。
嵌入 — OpenAI 兼容 · 本地(FastEmbed)· hash
按集合的模型·维度·服务器 URL·缓存复用
独立的嵌入(:8080)·重排(:8081)服务器
生成 LLM — OpenAI 兼容 · Claude(anthropic SDK)
评估
使用黄金数据集自动度量 RAG 流水线质量。
黄金集(问题·期望答案·期望出处)CRUD
检索指标 — Hit Rate · MRR(无需 LLM)
生成指标 — LLM-as-judge(faithfulness 等)
评估 Run 异步工作器·指标表
运维(Observability)
对查询的分阶段时延与 token 用量进行埋点。
Query Trace — retrieval/rerank/generation 时延
token 用量捕获(OpenAI 兼容 · Claude)
统计 — 成功率·时延 p50/p95·热门查询
best-effort 埋点(不阻塞请求)
流水线版本管理
将检索、重排与生成配置作为可版本化的一等资产管理。
append-only 版本·回滚·字段级 diff
对同一查询比较两个版本(实验)
距离度量 override
为 search/query/chat 应用 pipeline_id
反馈闭环
收集答案评价并回流至黄金集。
Playground·Chat 答案的 👍/👎 组件
通过 trace_id 归属到特定答案
将反馈晋升(promote)为黄金集条目
评估/状态过滤·统计·管理界面