Solutions · Open Source

Argus RAG Studio

一个开源自托管平台，在一处覆盖 RAG 全生命周期——构建（Build）、检索/生成（Retrieve & Generate）、评估（Evaluate）与运维/部署（Operate & Deploy）。它不是"跑通一次的 RAG 演示"：内置以数字度量质量的评估工具链、自动探索最优设置的配置扫描、反馈闭环，以及基于代理的远程部署，可在本地化与气隙（隔离网）环境中运行。

Apache License 2.0 · 开源GitHub 仓库产品介绍手册

特点与优势

测量 → 优化 → 改进闭环

用黄金集、Hit Rate/MRR 与三轴 LLM-as-Judge 以数字度量质量；配置扫描自动探索分块、检索模式与重排器的最优组合；用户 👍/👎 反馈回流为黄金集——多数自建 RAG 缺失的闭环在这里是内置功能。

混合检索＋带引用答案

向量（pgvector）与词法（tsvector）结果经 RRF 融合，再由重排（LLM·cross-encoder）排序，答案带 [n] 引用并通过 SSE 流式输出。联邦查询可一次检索使用异构嵌入的多个知识库。

面向韩语·韩国文档的特化

HWP/HWPX 专用 Rust 解析器（rhwp）、kss 韩语分句、面向扫描件的 VLM·OCR（PaddleOCR）流水线，以及 AI-Hub 兼容标注——这是通用开源 RAG 框架不具备的能力轴。

气隙·代理远程部署

模型以包（pack）形式引入并在部署时自动安装；各主机的代理远程部署工作进程、嵌入、重排与 VLM 服务器。配合 zot 镜像仓库，连容器也完全离线——满足金融·公共·国防的网络隔离要求。

平台架构

前端仪表盘、RAG 后端、推理服务器与数据存储/镜像仓库有机联动；推理与工作进程可经由代理分离部署，随规模分阶段扩展。

Frontend Dashboard

Next.js 16 · React 19

知识库 · Playground · 聊天

流水线 · 评估 · 可观测性

反馈 · 文档路由 · 微调

标注 · 图像浏览器

模型管理 · 服务器管理 · 源监视

作业（Jobs）· 用户/权限 · API 密钥 · PII 规则

RAG Backend

FastAPI :4700

摄取——解析·分块·嵌入·索引（异步工作进程）

查询——混合检索·重排·生成

评估 · 追踪 · 反馈 · 流水线版本

RAG 文档路由 · 源监视

servermgr——代理部署·代理转发·心跳

REST · SSE 流式 · 本地 JWT/Keycloak

Inference

本地或分离部署

嵌入 :8080——FastEmbed 本地 · OpenAI 兼容

重排器 :8081——cross-encoder

检测（OCR）:8082——PaddleOCR · EasyOCR

生成 LLM——Claude · OpenAI 兼容 · Ollama · vLLM

VLM（vLLM）——扫描件·图像解析

GPU 变体——cpu · gpu(onnx) · gpu-torch

Data Stores

PostgreSQL · MinIO · zot

PostgreSQL + pgvector——块·向量·tsvector

追踪·评估·反馈在同一数据平面

MinIO / S3——原始文档·图像·模型包

Model Repository（argus-models）

zot OCI 镜像仓库——隔离网镜像

buildx bake——amd64+arm64 多架构

技术栈

Python 3.11+FastAPI (async)SQLAlchemy 2.0Pydantic v2PostgreSQL + pgvectorMinIO / S3Next.js 16React 19TypeScriptTailwind 4 · shadcn/uiFastEmbed(ONNX) · torch(cu128)Docker/Podman · zot · buildxJWT · Keycloak OIDC · API 密钥

核心功能

从摄取、解析、分块到混合检索与生成，再到评估、配置扫描、检索微调、版本与可观测性、代理部署与气隙、标注与图像——在单一平台提供覆盖 RAG 全周期的十二大支柱。

摄取流水线

多格式文档经异步工作进程完成上传→解析→分块→嵌入→索引。

多格式加载器——txt/pdf/docx/xlsx/pptx/hwp/hwpx 等

源监视——投放区周期扫描·无人值守采集

content_hash 幂等性·重新处理（reindex）

作业进度追踪·工作进程可分离部署

5 种解析策略

按文档特性为每个集合选择解析策略（未安装时自动回退）。

text · layout（pdfplumber）· docai（docling）

vlm——视觉 LLM（扫描件·复杂版面）

rhwp——HWP/HWPX 专用 Rust 解析器（保留合并表格）

可用性内省·真实模型验证

8 种分块策略

分块决定检索质量的一半——从表格保留到语义边界都细致实现。

recursive · fixed · sentence（韩语 kss）· paragraph · section

markdown（保留表格/代码块·标题 breadcrumb）· semantic · auto

char / token（tiktoken）单位·智能重叠

小块合并·块预算上限等质量护栏

知识库设计——fail-closed 隔离

将集合设计为安全隔离边界，而不只是主题分组。

所有查询按 collection_id 物理过滤（fail-closed）

嵌入模型·维度·距离度量创建后不可变——向量空间一致性

确定性文档路由——优先级·first-match-wins

安全等级不确定时归入最高等级的特别规则

混合检索与生成

并行检索语义与关键词并融合，生成带引用的答案。

向量（pgvector）＋词法（tsvector）＋RRF 融合

重排 none / llm / cross_encoder

[n] 接地引用答案·多轮聊天（SSE）

联邦查询——异构嵌入集合的 RRF 合并

模型灵活性

按工作负载更换嵌入、重排器、生成 LLM、VLM 与 OCR。

嵌入——local（FastEmbed）· OpenAI 兼容（TEI/vLLM/Ollama）· 默认 bge-m3

生成 LLM——Claude · OpenAI 兼容 · Ollama · vLLM

VLM（vLLM）· OCR 检测（PaddleOCR/EasyOCR）

按集合指定模型·维度·距离·维度自动检测

评估工具链

用黄金数据集与 LLM 评审以数字度量质量。

黄金集（问题·正确文档）管理·反馈晋升

检索指标——Hit Rate · MRR

生成指标——三轴 LLM-as-Judge（Faithfulness·Relevance·Correctness）

holdout·过拟合标记·评审门控

配置扫描与改进闭环

自动探索分块、检索模式、top-k 与重排器组合，并用排行榜比较。

查询轴＋索引轴（临时集合）的扫描

排行榜——按 Hit Rate·MRR·评审分数排序

将获胜配置发布为流水线新版本·可回滚

追踪 → 👍/👎 反馈 → 黄金集晋升的回流

检索微调

针对领域术语与缩写微调嵌入与重排器。

术语词典 → 合成查询生成·标注 UI 审核

（查询·正例·负例）三元组训练数据集

JSONL 导出·外部训练器（M2M 回调）

注册到模型注册表 → 替换部署嵌入服务器

流水线版本与可观测性

将检索、重排与生成设置作为可版本化资产管理，并对每次查询进行度量。

append-only 版本·阶段·回滚·字段级 diff

版本关联评估——提前阻断回归

Query Trace——分阶段延迟·令牌捕获

统计——成功率·p50/p95·热门查询·API 密钥（M2M）

代理远程部署与气隙

各主机的 Argus Agent 部署工作进程与推理服务器；隔离网以模型包引入。

servermgr——代理注册·远程部署·转发·心跳

GPU 变体自动选择——amd64 gpu(onnx) · arm64 gpu-torch

模型包引入·Model Repository 自动安装·离线服务

zot OCI 镜像仓库·buildx 多架构镜像

标注与图像流水线

用 OCR 与 VLM 将文档内图像与扫描件知识化。

图像 OCR 标注——兼容 AI-Hub JSON

检测服务器提议初稿标签（PaddleOCR/EasyOCR）

图像浏览·VLM 内容分析索引

HWP 预览——Chromium 渲染（@rhwp/core）

Apache License 2.0 · 开源

以开源形式发布的 RAG 平台

Argus RAG Studio 以 Apache License 2.0 在 GitHub 上公开。后端（FastAPI）、前端（Next.js）以及独立的嵌入/重排服务器在内的整套 RAG 引擎全部开放，企业可以直接审计代码、按自身环境扩展，并在不向外部传输数据的情况下运维。

无商用限制的 Apache 2.0
可自行审计与扩展代码
气隙·本地化自主运维

GitHub 仓库联系我们

联系我们